Cependant, cela reste moins cher que ses concurrents.
Le nouveau chatbot de DeepSeek s'est présenté à moi avec la description suivante :
Bonjour, j'ai été créé pour que vous puissiez poser n'importe quelle question et recevoir une réponse qui pourrait même vous surprendre.
Aujourd'hui, l'intelligence artificielle développée par DeepSeek est devenue un concurrent sérieux sur le marché et la cause de l'une des plus grandes baisses du cours de l'action de NVIDIA.
Image : ensigame.com
Ce qui distingue ce modèle, c'est son architecture et ses méthodes d'entraînement. Il utilise plusieurs technologies innovantes :
- Prédiction multi-tokens (MTP) : Au lieu de prédire un mot à la fois, le modèle anticipe plusieurs mots simultanément en analysant différentes parties d'une phrase. Cette approche améliore à la fois la précision et l'efficacité du modèle.
- Mixture of Experts (MoE) : Cette architecture utilise plusieurs réseaux neuronaux pour traiter les données d'entrée. La technologie accélère l'entraînement de l'IA et améliore ses performances. Dans DeepSeek V3, 256 réseaux neuronaux sont utilisés, huit étant activés pour chaque tâche de traitement de tokens.
- Attention latente multi-tête (MLA) : Ce mécanisme aide à se concentrer sur les parties les plus importantes d'une phrase. Le MLA extrait répétément les détails clés des fragments de texte, réduisant ainsi le risque de perte d'informations cruciales. Cela permet à l'IA de mieux capter les nuances essentielles des données d'entrée.
La startup chinoise DeepSeek a affirmé avoir conçu un modèle d'IA performant avec des coûts minimaux, déclarant n'avoir dépensé que 6 millions de dollars pour entraîner le puissant réseau neuronal DeepSeek V3 et n'avoir utilisé que 2048 processeurs graphiques.
Image : ensigame.com
Cependant, des analystes de SemiAnalysis ont découvert que DeepSeek exploite une vaste infrastructure informatique composée d'environ 50 000 GPU Nvidia Hopper. Cela comprend 10 000 unités H800, 10 000 modèles plus avancés H100 et des lots supplémentaires de GPU H20. Ces ressources sont réparties entre plusieurs centres de données et sont utilisées pour l'entraînement de l'IA, la recherche et la modélisation financière.
L'investissement total de l'entreprise dans les serveurs est estimé à environ 1,6 milliard de dollars, avec des dépenses opérationnelles estimées à 944 millions de dollars.
DeepSeek est une filiale du fonds de couverture chinois High-Flyer, qui a transformé la startup en une division indépendante axée sur les technologies d'IA en 2023. Contrairement à la plupart des startups qui louent de la puissance de calcul à des fournisseurs de cloud, DeepSeek possède ses propres centres de données, garantissant un contrôle total sur l'optimisation des modèles d'IA et permettant une mise en œuvre rapide des innovations. L'entreprise reste autofinancée, ce qui a un impact positif sur sa flexibilité et sa rapidité de prise de décisions.
Image : ensigame.com
De plus, certains chercheurs de DeepSeek gagnent plus de 1,3 million de dollars par an, attirant les meilleurs talents des principales universités chinoises (l'entreprise ne recrute pas de spécialistes étrangers).
Même en tenant compte de ces éléments, l'affirmation récente de DeepSeek selon laquelle son dernier modèle aurait été entraîné pour seulement 6 millions de dollars semble peu réaliste. Ce montant ne couvre que l'utilisation des GPU pendant le pré-entraînement et ne prend pas en compte les dépenses de recherche, d'affinement du modèle, de traitement des données ou de l'infrastructure générale.
Depuis sa création, DeepSeek a investi plus de 500 millions de dollars dans le développement de l'IA. Cependant, contrairement aux grandes entreprises entravées par la bureaucratie, la structure compacte de DeepSeek lui permet de mettre en œuvre activement et efficacement des innovations en IA.
Image : ensigame.com
L'exemple de DeepSeek démontre qu'une entreprise indépendante d'IA bien financée peut rivaliser avec les leaders du secteur. Cependant, les experts soulignent que le succès de l'entreprise repose en grande partie sur des investissements de plusieurs milliards, des avancées techniques et une équipe solide, tandis que les affirmations concernant un "budget révolutionnaire" pour le développement de modèles d'IA sont quelque peu exagérées.
Néanmoins, les coûts des concurrents restent nettement plus élevés. Par exemple, en comparant le coût de l'entraînement des modèles : DeepSeek a dépensé 5 millions de dollars pour R1, tandis que ChatGPT4o a coûté 100 millions de dollars.
Image principale: x.com
0 commentaires