Sin embargo, sigue siendo más rentable que sus competidores.
El último chatbot de DeepSeek se presentó con esta audaz declaración:
Hola, estoy diseñado para responder cualquier pregunta con ideas que quizás te sorprendan.
La IA de DeepSeek ha surgido como un fuerte competidor en la industria, llegando incluso a contribuir a una caída significativa en el precio de las acciones de NVIDIA.
Imagen: ensigame.com
La fuerza del modelo radica en su arquitectura única y técnicas de entrenamiento, incorporando innovaciones de vanguardia:
Predicción Multitoken (MTP): En lugar de predecir palabras una por una, este enfoque anticipa múltiples palabras segmentando las oraciones, mejorando precisión y velocidad.
Mezcla de Expertos (MoE): Este sistema utiliza múltiples redes neuronales para procesar datos, aumentando eficiencia y rendimiento. DeepSeek V3 emplea 256 redes, activando ocho por tarea de procesamiento de tokens.
Atención Latente Multicabezal (MLA): Esta técnica se enfoca en elementos clave de las oraciones, extrayendo detalles importantes repetidamente para minimizar errores y capturar matices sutiles en los datos.
La startup china DeepSeek afirma que desarrolló su potente modelo DeepSeek V3 con un modesto presupuesto de 6 millones de dólares, utilizando apenas 2048 GPUs.
Imagen: ensigame.com
Sin embargo, analistas de SemiAnalysis revelaron la enorme infraestructura de DeepSeek, con aproximadamente 50,000 GPUs Nvidia Hopper, incluyendo 10,000 H800, 10,000 avanzadas H100 y unidades adicionales H20. Estos recursos, distribuidos en múltiples centros de datos, respaldan entrenamiento de IA, investigación y modelado financiero.
Las inversiones de la empresa en servidores suman alrededor de 1.600 millones de dólares, con costos operativos cercanos a los 944 millones.
Filial del fondo de inversión chino High-Flyer, DeepSeek se independizó en 2023 para enfocarse en IA. A diferencia de startups dependientes de la nube, DeepSeek posee sus propios centros de datos, permitiendo mayor control en optimización e innovación acelerada. Su estructura autofinanciada mejora flexibilidad y agilidad en la toma de decisiones.
Imagen: ensigame.com
DeepSeek también atrae talento de élite, con investigadores que ganan más de 1,3 millones de dólares anuales, reclutados exclusivamente de las mejores universidades chinas.
Aunque afirma haber entrenado DeepSeek V3 por solo 6 millones, esta cifra solo cubre el uso de GPUs en preentrenamiento, excluyendo investigación, refinamiento, procesamiento de datos e infraestructura.
Desde su fundación, DeepSeek ha invertido más de 500 millones en desarrollo de IA. Su estructura ágil favorece innovación rápida frente a competidores más burocráticos.
Imagen: ensigame.com
El ascenso de DeepSeek demuestra que una empresa independiente bien financiada puede rivalizar con gigantes. Expertos destacan que su éxito surge de grandes inversiones, avances técnicos y un equipo talentoso, aunque exagera al afirmar que es un modelo de IA "económico".
Aun así, los costos de DeepSeek son notablemente menores. Por ejemplo, su modelo R1 costó 5 millones de dólares en entrenamiento, frente a los 100 millones de ChatGPT4o.