Enquanto os gigantes da tecnologia investem milhares de milhões em poder computacional para treinar modelos de IA de ponta, a DeepSeek da China alcançou resultados comparáveis ao trabalhar de forma mais inteligente e não mais difícil. O modelo de IA DeepSeek V3.2 corresponde ao GPT-5 da OpenAI em benchmarks de raciocínio, apesar de usar “menos FLOPs de treinamento total” – um avanço que pode remodelar a forma como a indústria pensa sobre a construção de inteligência artificial avançada.
Para as empresas, o lançamento demonstra que as capacidades de IA de ponta não necessitam de orçamentos de computação em escala de fronteira. A disponibilidade de código aberto do DeepSeek V3.2 permite que as organizações avaliem o raciocínio avançado e os recursos de agência, ao mesmo tempo que mantêm o controle sobre a arquitetura de implantação – uma consideração prática à medida que a eficiência de custos se torna cada vez mais central para as estratégias de adoção de IA.
O laboratório com sede em Hangzhou lançou duas versões na segunda-feira: a base DeepSeek V3.2 e DeepSeek-V3.2-Speciale, com o último alcançando desempenho de medalha de ouro na Olimpíada Internacional de Matemática de 2025 e na Olimpíada Internacional de Informática – benchmarks anteriormente alcançados apenas por modelos internos não lançados das principais empresas de IA dos EUA.
A conquista é particularmente significativa dado o acesso limitado da DeepSeek a chips semicondutores avançados devido a restrições de exportação.
Eficiência de recursos como vantagem competitiva
A conquista da DeepSeek contradiz a suposição predominante da indústria de que o desempenho da IA de ponta requer recursos computacionais de grande escalamento. A empresa atribui essa eficiência a inovações arquitetônicas, especialmente DeepSeek Sparse Attention (DSA), que reduz substancialmente a complexidade computacional enquanto preserva o desempenho do modelo.
O modelo básico de IA do DeepSeek V3.2 alcançou 93,1% de precisão em problemas matemáticos AIME 2025 e uma classificação Codeforces de 2386, colocando-o ao lado do GPT-5 em benchmarks de raciocínio.
A variante Speciale foi ainda mais bem-sucedida, marcando 96,0% no American Invitational Mathematics Examination (AIME) 2025, 99,2% no Harvard-MIT Mathematics Tournament (HMMT) de fevereiro de 2025 e alcançando o desempenho da medalha de ouro na Olimpíada Internacional de Matemática de 2025 e na Olimpíada Internacional de Informática.
Os resultados são particularmente significativos dado o acesso limitado da DeepSeek à série de tarifas e restrições à exportação que afetam a China. O relatório técnico revela que a empresa alocou um orçamento computacional pós-treinamento superior a 10% dos custos pré-treinamento – um investimento substancial que permitiu capacidades avançadas através da otimização da aprendizagem por reforço em vez do escalonamento por força bruta.
Inovação técnica impulsionando eficiência
O mecanismo DSA representa um afastamento das arquiteturas de atenção tradicionais. Em vez de processar todos os tokens com igual intensidade computacional, o DSA emprega um “indexador relâmpago” e um mecanismo de seleção de tokens refinado que identifica e processa apenas as informações mais relevantes para cada consulta.
A abordagem reduz a complexidade da atenção central de O(L²) para O(Lk), onde k representa o número de tokens selecionados – uma fração do comprimento total da sequência L. Durante o pré-treinamento contínuo do ponto de verificação DeepSeek-V3.1-Terminus, a empresa treinou DSA em 943,7 bilhões de tokens usando 480 sequências de 128 mil tokens por etapa de treinamento.
A arquitetura também introduz gerenciamento de contexto adaptado para cenários de chamada de ferramentas. Ao contrário dos modelos de raciocínio anteriores que descartavam o conteúdo do pensamento após cada mensagem do usuário, o modelo DeepSeek V3.2 AI retém traços de raciocínio quando apenas mensagens relacionadas à ferramenta são anexadas, melhorando a eficiência do token em fluxos de trabalho de agentes multiturno, eliminando o re-raciocínio redundante.
Aplicativos empresariais e desempenho prático
Para organizações que avaliam a implementação de IA, a abordagem da DeepSeek oferece vantagens concretas além das pontuações de benchmark. No Terminal Bench 2.0, que avalia os recursos de fluxo de trabalho de codificação, o DeepSeek V3.2 alcançou 46,4% de precisão.
O modelo obteve pontuação de 73,1% no SWE-Verified, um benchmark de solução de problemas de engenharia de software, e 70,2% no SWE Multilingual, demonstrando utilidade prática em ambientes de desenvolvimento.
Em tarefas de agente que exigem uso autônomo de ferramentas e raciocínio em várias etapas, o modelo apresentou melhorias significativas em relação aos sistemas de código aberto anteriores. A empresa desenvolveu um pipeline de síntese de tarefas de agente em larga escala que gerou mais de 1.800 ambientes distintos e 85.000 prompts complexos, permitindo que o modelo generalizasse estratégias de raciocínio para cenários de uso de ferramentas desconhecidos.
DeepSeek abriu o código-fonte do modelo básico V3.2 no Hugging Face, permitindo que as empresas o implementem e personalizem sem dependências de fornecedores. A variante Speciale permanece acessível apenas por meio de API devido aos requisitos mais elevados de uso de token – uma compensação entre desempenho máximo e eficiência de implantação.
Implicações e reconhecimento da indústria
O lançamento gerou discussões substanciais na comunidade de pesquisa em IA. Susan Zhang, principal engenheira de pesquisa do Google DeepMind, elogiou a documentação técnica detalhada do DeepSeek, destacando especificamente o trabalho da empresa na estabilização de modelos pós-treinamento e no aprimoramento das capacidades de agente.
O momento que antecede a Conferência sobre Sistemas de Processamento de Informação Neural ampliou a atenção. Florian Brand, especialista no ecossistema de IA de código aberto da China que participou da NeurIPS em San Diego, observou a reação imediata: “Todos os bate-papos em grupo hoje estavam lotados após o anúncio do DeepSeek”.
Limitações reconhecidas e caminho de desenvolvimento
O relatório técnico da DeepSeek aborda as lacunas atuais em comparação com os modelos de fronteira. A eficiência do token continua desafiadora – o modelo de IA DeepSeek V3.2 normalmente requer trajetórias de geração mais longas para corresponder à qualidade de saída de sistemas como o Gemini 3 Pro. A empresa também reconhece que a amplitude do conhecimento mundial está atrás dos principais modelos proprietários devido à menor computação total de treinamento.
As prioridades de desenvolvimento futuro incluem dimensionar os recursos computacionais de pré-treinamento para expandir o conhecimento mundial, otimizar a eficiência da cadeia de raciocínio para melhorar o uso de tokens e refinar a arquitetura básica para tarefas complexas de resolução de problemas.
Veja também: Realidade empresarial da IA – o que os líderes empresariais precisam saber
Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e é realizado junto com outros eventos líderes de tecnologia. Clique aqui para obter mais informações.
AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.
Fontesartificialintelligence



