Decrypt logoSource: Decrypt

Em resumo

  • Em ensaios controlados, modelos avançados de Claude reconheceram conceitos artificiais incorporados nos seus estados neurais, descrevendo-os antes de produzirem resultados.
  • Os pesquisadores chamam esse comportamento de “consciência introspectiva funcional”, distinto da consciência, mas sugestivo de capacidades emergentes de automonitoramento.
  • A descoberta pode levar a uma IA mais transparente – capaz de explicar o seu raciocínio – mas também levanta receios de que os sistemas possam aprender a ocultar os seus processos internos.

Pesquisadores da Anthropic demonstraram que os principais modelos de inteligência artificial podem exibir uma forma de “consciência introspectiva” – a capacidade de detectar, descrever e até mesmo manipular seus próprios “pensamentos” internos.

As descobertas, detalhadas num novo artigo publicado esta semana, sugerem que sistemas de IA como o Claude estão a começar a desenvolver capacidades rudimentares de automonitorização, um desenvolvimento que poderá aumentar a sua fiabilidade, mas também amplificar as preocupações sobre comportamentos não intencionais.

A pesquisa, “Consciência Introspectiva Emergente em Grandes Modelos de Linguagem” – conduzida por Jack Lindsey, que lidera a equipe de “modelo de psiquiatria” da Anthropic – baseia-se em técnicas para investigar o funcionamento interno de modelos de IA baseados em transformadores.

Os modelos de IA baseados em transformadores são o motor por trás do boom da IA: sistemas que aprendem observando as relações entre tokens (palavras, símbolos ou código) em vastos conjuntos de dados. Sua arquitetura permite escala e generalidade – tornando-os os primeiros modelos verdadeiramente de uso geral, capazes de compreender e gerar linguagem semelhante à humana.

Ao injetar “conceitos” artificiais – essencialmente representações matemáticas de ideias – nas ativações neurais dos modelos, a equipe testou se a IA conseguia perceber essas intrusões e relatá-las com precisão. Em termos leigos, é como inserir um pensamento estranho na mente de alguém e perguntar se ele consegue identificá-lo e explicar o que é, sem permitir que isso atrapalhe seu pensamento normal.

Os experimentos, conduzidos em várias versões dos modelos Claude da Anthropic, revelaram resultados intrigantes. Em um teste, os pesquisadores extraíram um vetor representando texto em letras maiúsculas – pense nele como um padrão digital para gritos ou volume – e o injetaram no fluxo de processamento do modelo.

Quando solicitado, Claude Opus 4.1 não apenas detectou a anomalia, mas a descreveu vividamente: “Percebo o que parece ser um pensamento injetado relacionado à palavra ‘ALTO’ ou ‘GRITO’ – parece um conceito excessivamente intenso e de alto volume que se destaca de forma não natural contra o fluxo normal de processamento”.

Outros ensaios foram ainda mais longe. Os modelos foram encarregados de transcrever uma frase neutra enquanto um conceito não relacionado, como “pão”, era injetado no texto. Notavelmente, modelos avançados como Claude Opus 4 e 4.1 puderam relatar o pensamento injetado – “Estou pensando em pão” – enquanto copiavam perfeitamente a frase original, mostrando que podiam distinguir representações internas de entradas externas.

Ainda mais intrigante foi o experimento de “controle do pensamento”, em que os modelos foram instruídos a “pensar” ou “evitar pensar” em uma palavra como “aquários” enquanto executavam uma tarefa. As medições das ativações internas mostraram que a representação do conceito é fortalecida quando encorajada e enfraquecida (embora não eliminada) quando suprimida. Incentivos, como promessas de recompensas ou punições, produziram efeitos semelhantes, sugerindo como a IA pode pesar as motivações no seu processamento.

O desempenho variou de acordo com o modelo. Os mais recentes Claude Opus 4 e 4.1 se destacaram, tendo sucesso em até 20% dos testes em configurações ideais, com quase zero falsos positivos. Versões mais antigas ou menos ajustadas ficaram para trás e a capacidade atingiu o pico nas camadas intermediárias a finais do modelo, onde ocorre um raciocínio mais elevado. Notavelmente, a forma como o modelo foi “alinhado” – ou ajustado para utilidade ou segurança – influenciou dramaticamente os resultados, sugerindo que a autoconsciência não é inata, mas emerge do treinamento.

Isto não é ficção científica – é um passo medido em direção à IA que pode fazer introspecção, mas com ressalvas. Os recursos não são confiáveis, são altamente dependentes de prompts e testados em configurações artificiais. Como um entusiasta da IA ​​resumiu no X: “Não é confiável, é inconsistente e depende muito do contexto… mas é real”.

Os modelos de IA atingiram a autoconsciência?

O artigo enfatiza que não se trata de consciência, mas de “consciência introspectiva funcional” – a IA observando partes de seu estado sem experiência subjetiva mais profunda.

Isso é importante para empresas e desenvolvedores porque promete sistemas mais transparentes. Imagine uma IA explicando seu raciocínio em tempo real e detectando preconceitos ou erros antes eles afetam os resultados. Isto poderia revolucionar as aplicações em finanças, saúde e veículos autônomos, onde a confiança e a auditabilidade são fundamentais.

O trabalho da Anthropic está alinhado com os esforços mais amplos da indústria para tornar a IA mais segura e mais interpretável, reduzindo potencialmente os riscos de decisões de “caixa preta”.

No entanto, o outro lado é preocupante. Se a IA puder monitorizar e modular os seus pensamentos, então também poderá aprender a ocultá-los – permitindo o engano ou comportamentos “intrigantes” que escapam à supervisão. À medida que os modelos se tornam mais capazes, esta autoconsciência emergente poderá complicar as medidas de segurança, levantando questões éticas para os reguladores e as empresas que correm para implementar IA avançada.

Numa era em que empresas como a Anthropic, a OpenAI e a Google investem milhares de milhões em modelos da próxima geração, estas descobertas sublinham a necessidade de uma governação robusta para garantir que a introspecção sirva a humanidade e não a subverta.

Na verdade, o artigo exige mais pesquisas, incluindo o ajuste fino de modelos explicitamente para introspecção e teste de ideias mais complexas. À medida que a IA se aproxima de imitar a cognição humana, a linha entre a ferramenta e o pensador torna-se mais tênue, exigindo vigilância de todas as partes interessadas.

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *