Em resumo
- Os modelos de robótica de Gemini da DeepMind deram às máquinas a capacidade de planejar, raciocinar e até procurar regras de reciclagem on -line antes de atuar.
- Em vez de seguir os scripts, a nova IA do Google permite que os robôs se adaptem, resolvam problemas e passem habilidades entre si.
- De embalar malas a lixo de classificação, os robôs alimentados pelo Gemini-ER 1.5 mostraram as primeiras etapas em direção à inteligência de uso geral.
O Google DeepMind lançou dois modelos de IA nesta semana que pretendem tornar os robôs mais inteligentes do que nunca. Em vez de se concentrar nos seguintes comentários, o Gemini Robotics 1.5 atualizado e seu Companion Gemini Robotics-ER 1.5 fazem os robôs pensarem nos problemas, pesquisar na Internet por informações e passar habilidades entre diferentes agentes de robôs.
Segundo o Google, esses modelos marcam uma “etapa fundamental que pode navegar pelas complexidades do mundo físico com inteligência e destreza”
“A Gemini Robotics 1.5 marca um marco importante para resolver a AGI no mundo físico”, disse o Google no anúncio. “Ao introduzir recursos agênticos, estamos indo além dos modelos que reagem a comandos e criando sistemas que podem realmente raciocinar, planejar, usar ativamente ferramentas e generalizar”.
E esse termo “generalização” é importante porque os modelos lutam com ele.
Os robôs alimentados por esses modelos agora podem lidar com tarefas como classificar a roupa por cor, embalar uma mala com base nas previsões climáticas que encontram on -line ou verificar as regras de reciclagem locais para jogar fora o lixo corretamente. Agora, como humano, você pode dizer: “Duh, e daí?” Mas, para fazer isso, as máquinas exigem uma habilidade chamada generalização – a capacidade de aplicar conhecimento a novas situações.
Robôs – e algoritmos em geral – geralmente lutam com isso. Por exemplo, se você ensinar um modelo a dobrar um par de calças, ele não poderá dobrar uma camiseta, a menos que os engenheiros programassem a cada passo de antecedência.
Os novos modelos mudam isso. Eles podem pegar sugestões, ler o ambiente, fazer suposições razoáveis e realizar tarefas de várias etapas que costumavam ficar fora de alcance-ou pelo menos extremamente difíceis-para máquinas.
Mas melhor não significa perfeito. Por exemplo, em um dos experimentos, a equipe mostrou aos robôs um conjunto de objetos e pediu que os enviassem para o lixo correto. Os robôs usaram sua câmera para identificar visualmente cada item, retirar as mais recentes diretrizes de reciclagem de São Francisco on -line e colocá -las para onde deveriam ir idealmente, tudo por conta própria, exatamente como o humano local faria.
Esse processo combina pesquisa on-line, percepção visual e planejamento passo a passo-fazendo decisões com consciência de contexto que vão além do que os robôs mais antigos poderiam alcançar. A taxa de sucesso registrada estava entre 20% a 40% das vezes; Não é o ideal, mas surpreendente para um modelo que não foi capaz de entender essas nuances nunca antes.
Como o Google transforma robôs em super-robôs
Os dois modelos dividiram o trabalho. A Gemini Robotics-ER 1.5 age como o cérebro, descobrindo o que precisa acontecer e criando um plano passo a passo. Ele pode ligar para a pesquisa do Google quando precisar de informações. Depois de ter um plano, passa as instruções de linguagem natural para a Gemini Robotics 1.5, que lida com os movimentos físicos reais.
Mais tecnicamente falando, o novo Gemini Robotics 1.5 é um modelo de ação de visão de visão (VLA) que transforma informações e instruções visuais em comandos motores, enquanto o novo Gemini Robotics-ER 1.5 é um modelo de linguagem de visão (VLM) que cria planos de vários pontos para concluir uma missão.
Quando um robô classifica a roupa, por exemplo, ela gera internamente a tarefa usando uma cadeia de pensamento: entender que “classificar por cor” significa que os brancos vão em uma lixeira e cores em outra e depois quebrar os movimentos específicos necessários para pegar cada peça de roupa. O robô pode explicar seu raciocínio em inglês simples, tornando suas decisões menos uma caixa preta.
O CEO do Google, Sundar Pichai, entrou no X, observando que os novos modelos permitirão que os robôs melhorem, planejem com antecedência, usem ferramentas digitais como pesquisa e transfira aprendizado de um tipo de robô para outro. Ele chamou de “o próximo grande passo do Google em direção a robôs de uso geral que são realmente úteis”.
Os modelos New Gemini Robotics 1.5 permitirão que os robôs melhorem, planejem com antecedência, usem ferramentas digitais como a pesquisa e transfiram o aprendizado de um tipo de robô para outro. Nosso próximo grande passo em direção a robôs de uso geral que são realmente úteis-você pode ver como o robô razões como… pic.twitter.com/kw3htbf6dd
– Sundar Pichai (@sundarpichai) 25 de setembro de 2025
O lançamento coloca o Google em um holofote compartilhado com desenvolvedores como Tesla, Figura AI e Boston Dynamics, embora cada empresa esteja adotando abordagens diferentes. A Tesla se concentra na produção em massa de suas fábricas, com Elon Musk prometendo milhares de unidades até 2026. Boston Dynamics continua ultrapassando os limites do atletismo de robôs com seu atlas de backling. Enquanto isso, o Google aposta na IA que torna os robôs adaptáveis a qualquer situação sem programação específica.
O tempo é importante. As empresas americanas de robótica estão pressionando por uma estratégia nacional de robótica, incluindo o estabelecimento de um escritório federal focado em promover o setor em um momento em que a China está fazendo da IA e robôs inteligentes uma prioridade nacional. A China é o maior mercado mundial de robôs que trabalham em fábricas e outros ambientes industriais, com cerca de 1,8 milhão de robôs operando em 2023, de acordo com a Federação Internacional de Robótica, com sede na Alemanha.
A abordagem do DeepMind difere da programação tradicional da robótica, onde os engenheiros codificam meticulosamente todos os movimentos. Em vez disso, esses modelos aprendem com a demonstração e podem se adaptar rapidamente. Se um objeto escapar do alcance de um robô ou alguém move algo no meio da tarefa, o robô se ajusta sem perder uma batida.
Os modelos se baseiam no trabalho anterior do DeepMind a partir de março, quando os robôs só podiam lidar com tarefas únicas, como descompactar uma bolsa ou papel dobrável. Agora eles estão enfrentando sequências que desafiariam muitos humanos – como fazer as malas adequadamente para uma viagem depois de verificar a previsão do tempo.
Para os desenvolvedores que desejam experimentar, há uma abordagem dividida na disponibilidade. O Gemini Robotics-ER 1.5 foi lançado quinta-feira através da API Gemini no Google AI Studio, o que significa que qualquer desenvolvedor pode começar a construir com o modelo de raciocínio. O modelo de ação, Gemini Robotics 1.5, permanece exclusivo para “selecionar” (que significa “rico”, provavelmente) parceiros.
Geralmente inteligente Boletim informativo
Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.
Fontedecrypt