Os dados de simulação virtual estão impulsionando o desenvolvimento da IA física em ambientes corporativos, liderados por iniciativas como o MolmoBot da Ai2.
Instruir o hardware para interagir com o mundo real tem dependido historicamente de demonstrações altamente caras e coletadas manualmente. Os fornecedores de tecnologia que constroem agentes de manipulação generalistas normalmente enquadram um treinamento extensivo no mundo real como base para esses sistemas.
Para algum contexto, projetos como o DROID incluem 76.000 trajetórias teleoperadas reunidas em 13 instituições, representando cerca de 350 horas de esforço humano. O RT-1 do Google DeepMind exigiu 130.000 episódios coletados ao longo de 17 meses por operadores humanos. Esta dependência da recolha manual e proprietária de dados inflaciona os orçamentos de investigação e concentra capacidades num pequeno grupo de laboratórios industriais com bons recursos.
“Nossa missão é construir uma IA que avance a ciência e expanda o que a humanidade pode descobrir”, disse Ali Farhadi, CEO da Ai2. “A robótica pode tornar-se um instrumento científico fundamental, ajudando os investigadores a avançar mais rapidamente e a explorar novas questões. Para chegar lá, precisamos de sistemas que generalizem no mundo real e de ferramentas que a comunidade global de investigação possa desenvolver em conjunto. Demonstrar a transferência da simulação para a realidade é um passo significativo nessa direção.”
Pesquisadores do Allen Institute for AI (Ai2) oferecem um modelo econômico diferente com o MolmoBot, um conjunto aberto de modelos de manipulação robótica treinado inteiramente em informações sintéticas. Ao gerar trajetórias processualmente dentro de um sistema chamado MolmoSpaces, a equipe contorna a necessidade de teleoperação humana.
O conjunto de dados que acompanha, MolmoBot-Data, contém 1,8 milhão de trajetórias de manipulação especializadas. Esta coleção foi produzida combinando o mecanismo de física MuJoCo com randomização agressiva de domínio, objetos variados, pontos de vista, iluminação e dinâmica.
“A maioria das abordagens tenta fechar a lacuna entre o simulador e o real adicionando mais dados do mundo real”, disse Ranjay Krishna, diretor da equipe PRIOR da Ai2. “Fizemos a aposta oposta: que a lacuna diminui quando você expande dramaticamente a diversidade de ambientes simulados, objetos e condições de câmera. Nosso mais recente avanço muda a restrição na robótica da coleta de demonstrações manuais para o design de mundos virtuais melhores, e esse é um problema que podemos resolver.”
Gerando dados de simulação virtual para IA física
Usando 100 GPUs Nvidia A100, o pipeline criou cerca de 1.024 episódios por hora de GPU, o que equivale a mais de 130 horas de experiência de robô para cada hora de relógio.
Em comparação com a coleta de dados do mundo real, isso representa quase quatro vezes o rendimento de dados, impactando diretamente o retorno do investimento do projeto ao acelerar os ciclos de implantação.
O conjunto MolmoBot inclui três classes de políticas distintas avaliadas em duas plataformas: o manipulador móvel Rainbow Robotics RB-Y1 e o braço de mesa Franka FR3. O modelo primário, construído em um backbone de linguagem de visão Molmo2, processa vários intervalos de tempo de observações RGB e instruções de linguagem para ditar ações.
Flexibilidade de hardware com MolmoBot da Ai2
Para ambientes de computação de ponta onde os recursos são limitados, os pesquisadores fornecem o MolmoBot-SPOC, uma política de transformador leve com menos parâmetros. MolmoBot-Pi0 usa um backbone PaliGemma para combinar com a arquitetura do modelo π0 da Inteligência Física, permitindo comparações diretas de desempenho.
Durante os testes físicos, essas políticas demonstraram transferência imediata para tarefas do mundo real envolvendo objetos e ambientes invisíveis, sem qualquer ajuste fino.
Nas avaliações de escolha e colocação de mesa, o modelo primário do MolmoBot alcançou uma taxa de sucesso de 79,2%. Este desempenho superou o π0,5, um modelo treinado em extensos dados de demonstração do mundo real, que alcançou uma taxa de sucesso de 39,2%. Para a manipulação móvel, as políticas executaram com sucesso tarefas como aproximar, agarrar e puxar portas em toda a sua amplitude de movimento.
Fornecer essas arquiteturas variadas permite que as organizações integrem sistemas físicos de IA capazes sem ficarem presas a um único ecossistema de fornecedor proprietário ou a uma extensa infraestrutura de coleta de dados.
A liberação aberta de toda a pilha do MolmoBot – incluindo os dados de treinamento, pipelines de geração e arquiteturas de modelo – permite auditoria interna e adaptação. Qualquer pessoa que explore a IA física pode aproveitar essas ferramentas abertas para a simulação e construção de sistemas capazes, ao mesmo tempo que controla os custos.
“Para que a IA realmente promova a ciência, o progresso não pode depender de dados fechados ou sistemas isolados”, continua Ali Farhadi, CEO da Ai2. “Requer infraestrutura partilhada que os investigadores de todo o mundo possam construir, testar e melhorar em conjunto. É assim que acreditamos que a IA física irá avançar.”
Veja também: Nova parceria para oferecer robôs inteligentes para ambientes perigosos
Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e está localizado junto com outros eventos de tecnologia líderes, incluindo o Cyber Security & Cloud Expo. Clique aqui para mais informações.
AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.
Fontesartificialintelligence



