A Nvidia construiu robôs que se treinam usando agentes de codificação de IA

Em resumo

Nvidia, Carnegie Mellon e UC Berkeley lançaram ENPIRE, uma estrutura que permite que agentes de codificação de IA executem todo o ciclo de ensino de novas habilidades aos robôs sem supervisão humana.
Os agentes que executam Codex, Claude Code e Kimi Code levaram uma frota de oito robôs a uma taxa de sucesso de 99% em tarefas como inserção de pinos, inserção de GPU e corte de zip-tie.
Aumentar de um para oito robôs reduziu em mais da metade o tempo necessário para dominar uma tarefa, embora a conta de tokens tenha crescido ainda mais rápido do que o tempo economizado.

Uma frota de oito braços robóticos no laboratório GEAR da Nvidia passou as últimas semanas aprendendo a inserir pinos, encaixar placas gráficas e cortar braçadeiras. Os únicos humanos envolvidos foram aqueles que escreveram o artigo posteriormente.

A habilidade veio do ENPIRE, uma estrutura detalhada em um artigo publicado na terça-feira por pesquisadores da Nvidia, da Carnegie Mellon University e da UC Berkeley. A ENPIRE entrega todo o trabalho de treinamento de um robô aos agentes de codificação de IA, o mesmo software que já escreve e testa seu próprio código, e permite que eles executem esse processo diretamente no hardware físico.

Agentes de codificação como Codex da OpenAI, Claude Code da Anthropic e Kimi Code da Moonshot passaram o ano passado executando o que os pesquisadores chamam de pesquisa automática – escrever código, testá-lo e reescrevê-lo novamente sem ninguém por dentro. Esse ciclo permaneceu principalmente em uma tela, onde a redefinição de um experimento fracassado não custa nada. ENPIRE o arrasta para o mundo físico, onde reiniciar um experimento significa mover um braço robótico real.

Construindo o ‘Império’

O sistema divide o trabalho em duas etapas. No primeiro, um humano orienta o agente na construção de duas ferramentas permanentes: uma rotina de redefinição que retorna o espaço de trabalho a uma nova posição inicial e uma função de recompensa que assiste às imagens da câmera para marcar o sucesso – basicamente um árbitro que nunca pisca e nunca faz uma pausa para o almoço. Essa configuração acontece uma vez e é reutilizada em todas as tentativas seguintes.

Uma vez que essas ferramentas existam, o agente assume completamente o controle. Ele pesquisa ideias em pesquisas publicadas, escolhe entre métodos de treinamento, como aprendizado por imitação, aprendizado por reforço ou regras escritas à mão, depois reescreve seu próprio código e testa o resultado no robô. Nada nesse ciclo exige que uma pessoa observe, o que é libertador ou um pouco perturbador, dependendo de como você se sente em relação a um robô segurando uma tesoura sem supervisão.

A Nvidia executou o experimento em oito estações robóticas bimanuais, cada uma com seu próprio hardware, computador e agente de codificação. As estações negociam o progresso via Git, a mesma ferramenta que os codificadores usam para mesclar códigos, de modo que uma ideia vencedora se espalha por toda a frota em questão de minutos.

Os pesquisadores mediram a recompensa em “Push-T”, uma tarefa em que um robô desliza um bloco em forma de T em uma zona alvo usando apenas empurrões e inserção de pinos, onde enfia pinos em orifícios de 4 milímetros. Escalar de um robô para oito reduziu o tempo para dominar o Push-T de aproximadamente cinco para duas horas e a inserção de pinos de mais de 90 minutos para cerca de 40.

Nas quatro tarefas reais testadas, os agentes conduziram as suas políticas a uma taxa de sucesso de 99%, de acordo com o jornal. Para a inserção de pinos, os agentes alcançaram uma confiabilidade quase perfeita mais rapidamente do que um método humano comparável, o tipo que ainda precisa da presença de alguém todas as manhãs.

Jim Fan da Nvidia, co-líder do GEAR Lab que dirige a pesquisa de IA da empresa, classificou o projeto como um esforço para permitir a AutoResearch no mundo físico pela primeira vez. Fan disse que a equipe entregou aos agentes uma frota de robôs, uma alocação de GPU e um orçamento simbólico, depois recuou e deixou os robôs assumirem o controle.

Hoje, habilitamos a AutoResearch no mundo físico pela primeira vez! Apresentando o ENPIRE: oferecemos a 8 agentes do Codex uma frota de robôs, uma alocação de GPUs e um generoso orçamento de tokens. Nós os libertamos com um objetivo simples: resolver a tarefa o mais rápido possível, manter os robôs ocupados… pic.twitter.com/zC0OQNzDBs

-Jim Fan (@DrJimFan) 16 de junho de 2026

A lacuna entre a simulação e a realidade apareceu quase imediatamente. Todos os três agentes de codificação resolveram o Push-T dentro de um simulador, mas dois dos três falharam quando a mesma tarefa foi transferida para um robô físico, observa o jornal.

Os simuladores não têm problemas de fricção. Mesas reais sim.

A Nvidia também testou o ENPIRE dentro do RoboCasa, um benchmark de cozinha simulada que avalia robôs em tarefas como abrir armários ou desligar fogões por taxa de sucesso, felizmente sem qualquer risco de queimar o local. Lá, o ENPIRE superou o modelo GR00T ponta a ponta da própria Nvidia e o CaP-X, um agente que usa ferramentas que ignora totalmente o ciclo de pesquisa automática.

ENPIRE estende uma ideia que a Nvidia lançou pela primeira vez com Eureka, um sistema 2023 que usava um modelo de linguagem para escrever funções de recompensa para robôs dentro de um simulador, em vez de engenheiros humanos fazerem isso manualmente. O ENPIRE transfere esse ciclo de autoaperfeiçoamento do simulador para o hardware real, com o agente projetando seus próprios testes em vez de apenas suas próprias recompensas.

O lançamento chega na mesma semana em que o Alibaba revelou seu próprio impulso de IA incorporada, o Qwen-Robot Suite, um trio de modelos básicos para navegação, manipulação e simulação física de robôs. A Alibaba está construindo cérebros de software para corpos de robôs que não fabrica; A Nvidia está testando se os agentes podem executar todo o ciclo de pesquisa no hardware de sua propriedade, de ponta a ponta. Ambos apontam para a mesma tendência: os robôs físicos estão se tornando a próxima arena para os agentes de codificação competirem.

Resumo Diário Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.

Fontedecrypt

A Nvidia construiu robôs que se treinam usando agentes de codificação de IA

ByJose Antonio Lanz

Em resumo

Construindo o ‘Império’

Resumo Diário Boletim informativo

By Jose Antonio Lanz

Leia Também

Solana faz parceria com banco Toss vinculado a IPO de US$ 20 bilhões para remessas, pagamentos e tokenização de stablecoin

CoinFund e Coinbase apoiam startup de pagamentos Stablecoin Trace Finance com aumento de US$ 32 milhões

O aumento da SpaceX pode valer bilhões para a FTX – os credores serão beneficiados?

Deixe um comentário Cancelar resposta

Leia Também:

Solana faz parceria com banco Toss vinculado a IPO de US$ 20 bilhões para remessas, pagamentos e tokenização de stablecoin

CoinFund e Coinbase apoiam startup de pagamentos Stablecoin Trace Finance com aumento de US$ 32 milhões

A Nvidia construiu robôs que se treinam usando agentes de codificação de IA

O aumento da SpaceX pode valer bilhões para a FTX – os credores serão beneficiados?