L'innovation de DeepSeek propulsée par un investissement de 1,6 milliard de dollars

Pourtant, cela reste plus rentable que ses concurrents.

Le dernier chatbot de DeepSeek s'est présenté avec cette déclaration audacieuse :

Salut, je suis conçu pour répondre à toute question avec des éclairages qui pourraient bien vous surprendre.

L'IA de DeepSeek s'est imposée comme un acteur majeur dans le secteur, contribuant même à une baisse significative du cours de l'action de NVIDIA.

DeepSeek Test Image : ensigame.com

La force du modèle réside dans son architecture unique et ses techniques d'entraînement, intégrant des innovations de pointe :

Prédiction multi-tokens (MTP) : Au lieu de prédire les mots un par un, cette approche anticipe plusieurs mots simultanément en analysant des segments de phrase, améliorant à la fois précision et vitesse.
Mélange d'experts (MoE) : Ce système exploite plusieurs réseaux neuronaux pour traiter les données, optimisant l'efficacité de l'entraînement et les performances. DeepSeek V3 utilise 256 réseaux, en activant huit par tâche de traitement de token.
Attention latente multi-têtes (MLA) : Cette technique identifie les éléments clés d'une phrase, extrayant à plusieurs reprises les détails essentiels pour minimiser les omissions et capter les nuances subtiles des données.

La startup chinoise DeepSeek affirme avoir développé son puissant modèle DeepSeek V3 avec un budget modeste de 6 millions de dollars, utilisant seulement 2 048 GPU.

DeepSeek V3 Image : ensigame.com

Cependant, les analystes de SemiAnalysis ont révélé l'infrastructure massive de DeepSeek, avec environ 50 000 GPU Nvidia Hopper, dont 10 000 H800, 10 000 H100 avancés et des unités H20 supplémentaires. Ces ressources, réparties dans plusieurs centres de données, soutiennent l'entraînement de l'IA, la recherche et la modélisation financière.

Les investissements de l'entreprise en serveurs s'élèvent à environ 1,6 milliard de dollars, avec des coûts opérationnels avoisinant les 944 millions de dollars.

Filiale du fonds spéculatif chinois High-Flyer, DeepSeek a été séparée en 2023 pour se concentrer sur l'IA. Contrairement à la plupart des startups dépendantes du cloud computing, DeepSeek possède ses propres centres de données, permettant un meilleur contrôle de l'optimisation des modèles et une innovation plus rapide. Sa structure autofinancée améliore flexibilité et agilité décisionnelle.

DeepSeek Image : ensigame.com

DeepSeek attire également les meilleurs talents, certains chercheurs gagnant plus de 1,3 million de dollars par an, issus exclusivement d'universités chinoises d'élite.

Malgré les affirmations selon lesquelles DeepSeek V3 n'aurait coûté que 6 millions de dollars à entraîner, ce chiffre ne couvre que l'utilisation des GPU lors du pré-entraînement, excluant la recherche, l'affinement, le traitement des données et les coûts d'infrastructure.

Depuis sa création, DeepSeek a investi plus de 500 millions de dollars dans le développement de l'IA. Sa structure légère permet une innovation rapide et efficace comparée à ses concurrents plus bureaucratiques.

DeepSeek Image : ensigame.com

L'ascension de DeepSeek montre qu'une entreprise d'IA indépendante et bien financée peut rivaliser avec les géants du secteur. Les experts soulignent que son succès repose sur des investissements substantiels, des avancées techniques et une équipe talentueuse, bien que les affirmations sur un modèle d'IA "abordable" soient exagérées.

Néanmoins, les coûts de DeepSeek restent nettement inférieurs à ceux de ses concurrents. Par exemple, son modèle R1 a coûté 5 millions de dollars à entraîner, contre 100 millions pour ChatGPT4o.