No entanto, ainda é mais barato que seus concorrentes.
O novo chatbot da DeepSeek se apresentou para mim com a seguinte descrição:
Olá, fui criado para que você possa perguntar qualquer coisa e receber uma resposta que pode até mesmo te surpreender.
Hoje, a inteligência artificial desenvolvida pela DeepSeek se tornou um concorrente sério no mercado e a causa de uma das maiores quedas no preço das ações da NVIDIA.
Imagem: ensigame.com
O que diferencia esse modelo é sua arquitetura e seus métodos de treinamento. Ele emprega diversas tecnologias inovadoras:
- Predição Multi-token (MTP): Em vez de prever uma palavra por vez, o modelo antecipa várias palavras simultaneamente ao analisar diferentes partes de uma frase. Essa abordagem melhora tanto a precisão quanto a eficiência do modelo.
- Mistura de Especialistas (MoE): Essa arquitetura utiliza várias redes neurais para processar os dados de entrada. A tecnologia acelera o treinamento da IA e melhora seu desempenho. No DeepSeek V3, são empregadas 256 redes neurais, sendo oito ativadas para cada tarefa de processamento de tokens.
- Atenção Latente Multi-cabeça (MLA): Esse mecanismo ajuda a focar nas partes mais relevantes de uma frase. O MLA extrai repetidamente os detalhes-chave de fragmentos do texto, reduzindo a probabilidade de perda de informações importantes. Graças a isso, a IA tem maior probabilidade de capturar nuances cruciais nos dados de entrada.
A proeminente startup chinesa DeepSeek alegou ter criado um modelo de IA competitivo com custos mínimos, afirmando que gastou apenas US$ 6 milhões para treinar a poderosa rede neural DeepSeek V3 e utilizou apenas 2048 processadores gráficos.
Imagem: ensigame.com
No entanto, analistas da SemiAnalysis descobriram que a DeepSeek opera uma grande infraestrutura computacional composta por aproximadamente 50.000 GPUs Nvidia Hopper. Isso inclui 10.000 unidades H800, 10.000 modelos mais avançados H100 e lotes adicionais de GPUs H20. Esses recursos estão distribuídos em diversos data centers e são utilizados para treinamento de IA, pesquisas e modelagem financeira.
O investimento total da empresa em servidores é estimado em cerca de US$ 1,6 bilhão, com despesas operacionais estimadas em US$ 944 milhões.
A DeepSeek é uma subsidiária do hedge fund chinês High-Flyer, que transformou a startup em uma divisão independente focada em tecnologias de IA em 2023. Ao contrário da maioria das startups, que alugam poder computacional de provedores de nuvem, a DeepSeek possui seus próprios data centers, garantindo controle total sobre a otimização dos modelos de IA e permitindo a implementação rápida de inovações. A empresa permanece autofinanciada, o que impacta positivamente sua flexibilidade e velocidade na tomada de decisões.
Imagem: ensigame.com
Além disso, alguns pesquisadores da DeepSeek ganham mais de US$ 1,3 milhão anualmente, atraindo talentos de destaque das principais universidades chinesas (a empresa não contrata especialistas estrangeiros).
Mesmo levando isso em consideração, a recente afirmação da DeepSeek de ter treinado seu último modelo por apenas US$ 6 milhões parece irrealista. Esse valor refere-se apenas ao custo do uso de GPUs durante o pré-treinamento e não contabiliza despesas com pesquisa, refinamento do modelo, processamento de dados ou custos gerais de infraestrutura.
Desde sua fundação, a DeepSeek investiu mais de US$ 500 milhões no desenvolvimento de IA. No entanto, ao contrário das grandes empresas que enfrentam burocracia, a estrutura compacta da DeepSeek permite a implementação ativa e eficaz de inovações em IA.
Imagem: ensigame.com
O exemplo da DeepSeek demonstra que uma empresa independente de IA bem financiada pode competir com líderes do setor. No entanto, especialistas destacam que o sucesso da empresa é amplamente devido a investimentos bilionários, avanços técnicos e uma equipe forte, enquanto as alegações sobre um "orçamento revolucionário" para o desenvolvimento de modelos de IA são um tanto exageradas.
Ainda assim, os custos dos concorrentes continuam significativamente mais altos. Por exemplo, comparando o custo do treinamento de modelos: a DeepSeek gastou US$ 5 milhões no R1, enquanto o ChatGPT4o custou US$ 100 milhões.
Imagem principal: x.com
0 comentários