Um novo artigo de um pesquisador de IA da Samsung explica como uma pequena rede pode superar grandes modelos de linguagem (LLMs) em raciocínio complexo.

Na corrida pela supremacia da IA, o mantra da indústria tem sido frequentemente “quanto maior, melhor”. Os gigantes da tecnologia investiram bilhões na criação de modelos cada vez maiores, mas de acordo com Alexia Jolicoeur-Martineau da Samsung SAIL Montréal, um caminho radicalmente diferente e mais eficiente é possível com o Tiny Recursive Model (TRM).

Usando um modelo com apenas 7 milhões de parâmetros, menos de 0,01% do tamanho dos principais LLMs, o TRM alcança novos resultados de última geração em benchmarks notoriamente difíceis, como o teste de inteligência ARC-AGI. O trabalho da Samsung desafia a suposição predominante de que a mera escala é a única forma de desenvolver as capacidades dos modelos de IA, oferecendo uma alternativa mais sustentável e eficiente em termos de parâmetros.

Superando os limites da escala

Embora os LLMs tenham demonstrado uma habilidade incrível na geração de textos semelhantes aos humanos, sua capacidade de realizar raciocínios complexos e em várias etapas pode ser frágil. Como eles geram respostas token por token, um único erro no início do processo pode inviabilizar toda a solução, levando a uma resposta final inválida.

Técnicas como a Cadeia de Pensamento, em que um modelo “pensa em voz alta” para resolver um problema, foram desenvolvidas para mitigar isso. No entanto, estes métodos são computacionalmente dispendiosos, muitas vezes requerem grandes quantidades de dados de raciocínio de alta qualidade que podem não estar disponíveis e ainda podem produzir lógica falha. Mesmo com esses aumentos, os LLMs enfrentam certos quebra-cabeças onde a execução lógica perfeita é necessária.

O trabalho da Samsung baseia-se em um modelo recente de IA conhecido como Modelo de Raciocínio Hierárquico (HRM). HRM introduziu um novo método usando duas pequenas redes neurais que trabalham recursivamente em um problema em frequências diferentes para refinar uma resposta. Mostrou-se muito promissor, mas era complicado, baseando-se em argumentos biológicos incertos e teoremas complexos de ponto fixo cuja aplicação não era garantida.

Em vez das duas redes do HRM, o TRM utiliza uma única e minúscula rede que melhora recursivamente tanto o seu “raciocínio” interno como a sua “resposta” proposta.

O modelo recebe a pergunta, uma estimativa inicial da resposta e um recurso de raciocínio latente. Primeiro, ele percorre várias etapas para refinar seu raciocínio latente com base nas três entradas. Depois, utilizando este raciocínio melhorado, atualiza a sua previsão para a resposta final. Todo esse processo pode ser repetido até 16 vezes, permitindo que o modelo corrija progressivamente seus próprios erros de maneira altamente eficiente em termos de parâmetros.

De forma contraintuitiva, a pesquisa descobriu que uma rede minúscula com apenas duas camadas alcançava uma generalização muito melhor do que uma versão de quatro camadas. Esta redução no tamanho parece impedir o ajuste excessivo do modelo; um problema comum ao treinar em conjuntos de dados especializados menores.

O TRM também dispensa as complexas justificações matemáticas utilizadas pelo seu antecessor. O modelo original de GRH exigia a suposição de que suas funções convergiam para um ponto fixo para justificar seu método de treinamento. O TRM contorna isso completamente simplesmente retropropagando através de seu processo de recursão completo. Esta mudança por si só proporcionou um enorme aumento no desempenho, melhorando a precisão no benchmark Sudoku-Extreme de 56,5% para 87,4% em um estudo de ablação.

O modelo da Samsung supera os benchmarks de IA com menos recursos

Os resultados falam por si. No conjunto de dados Sudoku-Extreme, que usa apenas 1.000 exemplos de treinamento, o TRM atinge uma precisão de teste de 87,4%, um grande salto em relação aos 55% do HRM. No Maze-Hard, uma tarefa que envolve encontrar longos caminhos através de labirintos 30×30, o TRM pontua 85,3% em comparação com os 74,5% do HRM.

Mais notavelmente, o TRM faz grandes avanços no Abstraction and Reasoning Corpus (ARC-AGI), um benchmark projetado para medir a verdadeira inteligência fluida em IA. Com apenas 7M de parâmetros, o TRM atinge 44,6% de precisão no ARC-AGI-1 e 7,8% no ARC-AGI-2. Isso supera o HRM, que usou um modelo de parâmetros de 27M, e até supera muitos dos maiores LLMs do mundo. Para efeito de comparação, o Gemini 2.5 Pro pontua apenas 4,9% no ARC-AGI-2.

O processo de treinamento do TRM também se tornou mais eficiente. Um mecanismo adaptativo chamado ACT – que decide quando o modelo melhorou uma resposta o suficiente e pode passar para uma nova amostra de dados – foi simplificado para eliminar a necessidade de uma segunda e dispendiosa passagem direta pela rede durante cada etapa de treinamento. Esta mudança foi feita sem grande diferença na generalização final.

Esta pesquisa da Samsung apresenta um argumento convincente contra a trajetória atual dos modelos de IA em constante expansão. Ele mostra que, ao projetar arquiteturas que possam raciocinar iterativamente e se autocorrigir, é possível resolver problemas extremamente difíceis com uma pequena fração dos recursos computacionais.

Veja também: O novo agente de IA do Google reescreve o código para automatizar correções de vulnerabilidades

Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e está localizado junto com outros eventos de tecnologia líderes, incluindo a Cyber ​​Security Expo. Clique aqui para obter mais informações.

AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.

Fontesartificialintelligence

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *