China and US flags in origami style. Image: Shutterstock/Decrypt

Dois laboratórios americanos de IA lançaram modelos de código aberto esta semana, cada um adotando abordagens dramaticamente diferentes para o mesmo problema: como competir com o domínio da China em sistemas de IA acessíveis ao público.

Deep Cogito abandonou o Cogito v2.1, um enorme modelo de 671 bilhões de parâmetros que seu fundador, Drishan Arora, chama de “o melhor LLM de peso aberto de uma empresa dos EUA”.

Não tão rápido, rebateu o Allen Institute for AI, que acabou de abandonar o Olmo 3, classificando-o como “o melhor modelo de base totalmente aberta”. Olmo 3 possui total transparência, incluindo seus dados e código de treinamento.

Ironicamente, o modelo principal do Deep Cognito é construído sobre bases chinesas. Arora reconheceu no X que o Cogito v2.1 “se origina do modelo básico Deepseek de licença aberta a partir de novembro de 2024”.

Isso gerou algumas críticas e até debate sobre se o ajuste fino de um modelo chinês conta como um avanço da IA ​​americana, ou se apenas prova o quanto os laboratórios dos EUA ficaram para trás.

Independentemente disso, os ganhos de eficiência que o Cogito mostra em relação ao DeepSeek são reais.

Deep Cognito afirma que o Cogito v2.1 produz cadeias de raciocínio 60% mais curtas do que o DeepSeek R1, mantendo um desempenho competitivo.

Usando o que Arora chama de “Destilação e Amplificação Iterada” – modelos de ensino para desenvolver melhor intuição por meio de ciclos de autoaperfeiçoamento – a startup treinou seu modelo em apenas 75 dias na infraestrutura de RunPod e Nebius.

Se os benchmarks forem verdadeiros, este seria o LLM de código aberto mais poderoso atualmente mantido por uma equipe dos EUA.

Por que isso importa

Até agora, a China tem definido o ritmo da IA ​​de código aberto e as empresas norte-americanas dependem cada vez mais – silenciosa ou abertamente – de modelos básicos chineses para se manterem competitivas.

Essa dinâmica é arriscada. Se os laboratórios chineses se tornarem o canal padrão para a IA aberta em todo o mundo, as startups dos EUA perderão a independência técnica, o poder de negociação e a capacidade de moldar os padrões da indústria.

A IA de peso aberto determina quem controla os modelos brutos dos quais cada produto downstream depende.

Neste momento, chinês modelos de código aberto (DeepSeek, Qwen, Kimi, MiniMax) dominam a adoção global porque são baratos, rápidos, altamente eficientes e constantemente atualizados.

Imagem: Artificialanálise.ai

Muitas startups dos EUA já se baseiam neles, mesmo quando Evite publicamente admitir isso.

Isso significa que as empresas norte-americanas estão a construir negócios com base na propriedade intelectual estrangeira, em canais de formação estrangeiros e em otimizações de hardware estrangeiras. Estrategicamente, isso coloca a América na mesma posição que já enfrentou com a fabricação de semicondutores: cada vez mais dependente da cadeia de abastecimento de outra pessoa.

A abordagem do Deep Cogito – começando com uma bifurcação do DeepSeek – mostra o lado positivo (iteração rápida) e o lado negativo (dependência).

A abordagem do Allen Institute – construir o Olmo 3 com total transparência – mostra a alternativa: se os EUA quiserem uma liderança aberta na IA, terão de reconstruir eles próprios a pilha, desde os dados às receitas de formação e aos pontos de controlo. Isso exige muito trabalho e é lento, mas preserva a soberania sobre a tecnologia subjacente.

Em teoria, se você já gostou do DeepSeek e o usa online, o Cogito lhe dará respostas melhores na maioria das vezes. Se você utilizá-lo via API, ficará duas vezes mais feliz, pois pagará menos para gerar boas respostas graças aos seus ganhos de eficiência.

O Allen Institute tomou a direção oposta. Toda a família de modelos Olmo 3 chega com Dolma 3, um conjunto de dados de treinamento de 5,9 trilhões de tokens construído do zero, além de código completo, receitas e pontos de verificação de cada estágio de treinamento.

A organização sem fins lucrativos lançou três variantes de modelo – Base, Think e Instruct – com 7 bilhões e 32 bilhões de parâmetros.

“A verdadeira abertura na IA não se trata apenas de acesso – trata-se de confiança, responsabilidade e progresso compartilhado”, escreveu o instituto.

Olmo 3-Think 32B é o primeiro modelo de raciocínio totalmente aberto nessa escala, treinado em aproximadamente um sexto dos tokens de modelos comparáveis ​​como Qwen 3, ao mesmo tempo em que alcança desempenho competitivo.

Imagem: Ai2

Deep Cognito garantiu US$ 13 milhões em financiamento inicial liderado pela Benchmark em agosto. A startup planeja lançar modelos de fronteira com até 671 bilhões de parâmetros treinados em “significativamente mais computação com melhores conjuntos de dados”.

Enquanto isso, a Nvidia apoiou o desenvolvimento do Olmo 3, com o vice-presidente Kari Briski chamando-o de essencial para “os desenvolvedores escalarem a IA com modelos abertos construídos nos EUA”.

O instituto treinou nos clusters de GPU H100 do Google Cloud, alcançando 2,5 vezes menos requisitos de computação do que o Llama 3.1 8B da Meta

Cogito v2.1 está disponível para teste online gratuito aqui. O modelo pode ser baixado aqui, mas atenção: ele requer uma placa muito potente para funcionar.

Olmo está disponível para teste aqui. Os modelos podem ser baixados aqui. Esses são mais fáceis de consumir, dependendo de qual você escolher.

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.



Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *