No entanto, continua sendo mais econômico que os concorrentes.
O mais recente chatbot da DeepSeek se apresentou com esta afirmação ousada:
Olá, fui criado para responder qualquer pergunta com insights que podem te surpreender.
A IA da DeepSeek emergiu como um jogador formidável no setor, a ponto de contribuir para uma queda significativa no valor das ações da NVIDIA.
Imagem: ensigame.com
A força do modelo está na sua arquitetura única e técnicas de treinamento, incorporando inovações de ponta:
Predição Multitoken (MTP): Em vez de prever palavras uma a uma, essa abordagem antevê várias palavras simultaneamente ao analisar trechos das frases, aumentando precisão e velocidade.
Mistura de Especialistas (MoE): Esse sistema utiliza múltiplas redes neurais para processar dados, aprimorando eficiência e desempenho no treinamento. O DeepSeek V3 emprega 256 redes, ativando oito por tarefa de processamento de tokens.
Atenção Latente Multicabeça (MLA): Essa técnica focaliza elementos críticos das frases, extraindo repetidamente detalhes-chave para minimizar falhas e capturar nuances sutis nos dados.
A startup chinesa DeepSeek afirma ter desenvolvido seu poderoso modelo DeepSeek V3 com um orçamento modesto de US$6 milhões, usando apenas 2048 GPUs.
Imagem: ensigame.com
Porém, analistas da SemiAnalysis revelaram a imensa infraestrutura da DeepSeek, com cerca de 50.000 GPUs Nvidia Hopper, incluindo 10.000 H800s, 10.000 H100s avançadas e unidades adicionais H20. Esses recursos, distribuídos em vários data centers, sustentam treinamento de IA, pesquisa e modelagem financeira.
Os investimentos da empresa em servidores totalizam aproximadamente US$1,6 bilhão, com custos operacionais próximos de US$944 milhões.
Subsidiária do hedge fund chinês High-Flyer, a DeepSeek foi desmembrada em 2023 para focar em IA. Diferente da maioria das startups dependentes de computação em nuvem, a DeepSeek possui seus próprios data centers, permitindo maior controle na otimização de modelos e inovação acelerada. Sua estrutura autofinanciada melhora flexibilidade e agilidade na tomada de decisões.
Imagem: ensigame.com
A DeepSeek também atrai talentos de elite, com alguns pesquisadores recebendo mais de US$1,3 milhão por ano, recrutados exclusivamente de universidades chinesas renomadas.
Apesar de afirmar que treinou o DeepSeek V3 por apenas US$6 milhões, esse valor cobre apenas o uso de GPUs durante o pré-treinamento, excluindo pesquisa, refinamento, processamento de dados e custos de infraestrutura.
Desde sua fundação, a DeepSeek já investiu mais de US$500 milhões no desenvolvimento de IA. Sua estrutura enxuta permite inovação rápida e eficaz em comparação a concorrentes maiores e burocráticos.
Imagem: ensigame.com
A ascensão da DeepSeek mostra que uma empresa de IA independente e bem financiada pode rivalizar com gigantes do setor. Especialistas destacam que seu sucesso vem de investimentos robustos, avanços técnicos e uma equipe qualificada, embora alegações de um modelo de IA "econômico" sejam exageradas.
Ainda assim, os custos da DeepSeek são notavelmente inferiores aos dos concorrentes. Por exemplo, o modelo R1 da DeepSeek custou US$5 milhões para treinar, contra US$100 milhões do ChatGPT4o.