Decrypt logoSource: Decrypt

Em resumo

  • O professor de Ciência da Computação de Stanford, Fei-Fei Li, disse que o progresso da IA ​​​​agora é limitado por sistemas que não conseguem compreender o espaço físico.
  • Os modelos mundiais são projetados para simular ambientes e prever como as cenas mudam ao longo do tempo.
  • Os primeiros protótipos, como o Marble, sugerem como esses modelos poderiam remodelar o trabalho criativo, a robótica e a ciência.

Os robôs e a inteligência artificial multimodal ainda não conseguem compreender o mundo físico, uma deficiência que um importante investigador diz ser agora o maior obstáculo neste campo.

Fei-Fei Li, cientista da computação de Stanford amplamente considerado um pioneiro da visão computacional moderna, disse que a lacuna entre a IA e a realidade física se tornou o problema mais urgente da tecnologia e argumenta que fechá-la exigiria sistemas construídos em torno do raciocínio espacial, e não apenas da linguagem.

A IA está a aproximar-se rapidamente dos limites da aprendizagem baseada em texto e o progresso dependerá, em última análise, de “modelos mundiais”, disse Li num relatório publicado na segunda-feira.

“No centro do desbloqueio da inteligência espacial está o desenvolvimento de modelos mundiais – um novo tipo de IA generativa que deve enfrentar um conjunto de desafios fundamentalmente diferente dos LLMs”, escreveu Li no X. “Esses modelos devem gerar mundos espacialmente consistentes que obedeçam às leis físicas, processem entradas multimodais de imagens a ações e prevejam como esses mundos evoluem ou interagem ao longo do tempo.”

O que diabos são esses modelos?

O conceito de “modelos mundiais” remonta ao início da década de 1940quando o filósofo e psicólogo escocês Kenneth Craik conduziu pesquisas em ciências cognitivas.

A ideia ressurgiu na IA moderna depois que o artigo de David Ha e Jürgen Schmidhuber de 2018 mostrou que uma rede neural poderia aprender um modelo interno compacto de um ambiente e usá-lo como um simulador para planejamento e controle.

Li argumentou que os modelos mundiais são importantes porque os robôs e os sistemas multimodais ainda lutam com o raciocínio espacial fundamentado, deixando-os incapazes de avaliar distâncias e mudanças de cena, ou de prever resultados físicos básicos.

“Os robôs, como colaboradores humanos, seja ajudando cientistas na bancada do laboratório ou auxiliando idosos que vivem sozinhos, podem expandir parte da força de trabalho que precisa urgentemente de mais mão de obra e produtividade”, escreveu Li. Ambientes reais seguem regras que as máquinas atuais não conseguem capturar, argumenta Li.

Do movimento que molda a gravidade aos materiais que influenciam a luz, resolver isso requer sistemas capazes de armazenar memória espacial e modelar cenas em mais de duas dimensões.

Em setembro, a empresa de Li, World Labs, lançou a versão beta do Marble, um modelo mundial inicial que produzia ambientes tridimensionais exploráveis ​​a partir de prompts de texto ou imagem.

Os usuários podiam percorrer esses mundos sem limites de tempo ou mudanças de cenário, e os ambientes permaneciam consistentes, em vez de se transformarem ou se desintegrarem, afirma a empresa.

“O Marble é apenas o nosso primeiro passo na criação de um modelo mundial verdadeiramente espacialmente inteligente”, escreveu Li. “À medida que o progresso acelera, investigadores, engenheiros, utilizadores e líderes empresariais começam a reconhecer o seu extraordinário potencial. A próxima geração de modelos mundiais permitirá que as máquinas alcancem inteligência espacial a um nível totalmente novo – uma conquista que desbloqueará capacidades essenciais ainda largamente ausentes dos sistemas de IA actuais.”

Li disse que os casos de uso do modelo mundial incluem o suporte a uma variedade de aplicações porque dão à IA uma compreensão interna de como os ambientes se comportam.

Os criadores poderiam usá-los para explorar cenas em tempo real, os robôs poderiam contar com eles para navegar e manusear objetos com mais segurança, e os pesquisadores da ciência e da saúde poderiam executar simulações espaciais ou melhorar a imagem e a automação de laboratório.

Li relacionou a pesquisa sobre inteligência espacial aos primeiros estudos biológicos, observando que os humanos aprenderam a perceber e a agir muito antes de desenvolverem a linguagem.

“Muito antes da linguagem escrita, os humanos contavam histórias – pintavam-nas nas paredes das cavernas, transmitiam-nas através de gerações, construíam culturas inteiras com base em narrativas partilhadas”, escreveu ela. “As histórias são como damos sentido ao mundo, nos conectamos através da distância e do tempo, exploramos o que significa ser humano e, o mais importante, encontramos o significado da vida e do amor dentro de nós mesmos.”

Li disse que a IA precisa da mesma base para funcionar no mundo físico e argumentou que o seu papel deveria ser apoiar as pessoas, não substituí-las. O progresso, contudo, dependeria de modelos que compreendessem como o mundo funcionava, em vez de apenas o descreverem.

“A próxima fronteira da IA ​​é a Inteligência Espacial, uma tecnologia que transformará a visão em raciocínio, a percepção em ação e a imaginação em criação”, disse Li.

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *