Однако он остаётся более выгодным по стоимости, чем конкуренты.
Чат-бот DeepSeek представил себя с этим смелым заявлением:
Привет, я создан, чтобы отвечать на любые вопросы с инсайтами, которые могут тебя удивить.
ИИ DeepSeek стал серьёзным игроком в отрасли, даже повлияв на снижение акций NVIDIA.
Изображение: ensigame.com
Сила модели — в её уникальной архитектуре и передовых тренинговых методиках:
Многотокеновый прогноз (MTP): Предсказывает несколько слов сразу, анализируя фрагменты предложения, что улучшает точность и скорость.
Смесь экспертов (MoE): Использует множество нейросетей для обработки данных, усиливая эффективность. В DeepSeek V3 задействовано 256 сетей, из которых активируется 8 на каждую задачу.
Многовекторное латентное внимание (MLA): Фокусируется на ключевых элементах текста, многократно анализируя их для повышения точности.
Китайский стартап DeepSeek утверждает, что разработал мощную модель DeepSeek V3 всего за $6 млн, используя лишь 2048 GPU.
Изображение: ensigame.com
Однако аналитики SemiAnalysis раскрыли значительные масштабы инфраструктуры: около 50 000 GPU NVIDIA Hopper, включая 10 000 H800, 10 000 H100 и H20. Эти ресурсы распределены между дата-центрами и поддерживают ИИ-тренировки, исследования и финансовое моделирование.
Суммарные инвестиции в серверы достигают $1,6 млрд, а эксплуатационные расходы — $944 млн.
DeepSeek, дочерняя компания хедж-фонда High-Flyer, выделилась в 2023 году для фокуса на ИИ. В отличие от стартапов, арендующих облачные мощности, DeepSeek владеет собственными дата-центрами, что позволяет быстрее оптимизировать модели. Самофинансирование также повышает гибкость решений.
Изображение: ensigame.com
Компания привлекает топовых специалистов, некоторые из которых получают свыше $1,3 млн в год, нанимаясь исключительно из ведущих вузов Китая.
Несмотря на заявления о $6 млн на обучение DeepSeek V3, эта сумма покрывает только GPU для предварительного обучения, не учитывая исследования, доработки и инфраструктуру.
С момента основания DeepSeek вложил свыше $500 млн в ИИ. Гибкая структура позволяет ему превосходить более бюрократичных конкурентов.
Изображение: ensigame.com
Успех DeepSeek показывает, что хорошо финансируемая независимая компания может конкурировать с гигантами. Её преимущества — масштабные инвестиции, технические прорывы и сильная команда, хотя утверждения о «бюджетности» моделей преувеличены.
Тем не менее, затраты DeepSeek ниже: например, модель R1 стоила $5 млн против $100 млн у ChatGPT4o.