Idealmente, diz Bean, os chatbots de saúde seriam submetidos a testes controlados com usuários humanos, como fizeram em seu estudo, antes de serem divulgados ao público. Isso pode ser um trabalho pesado, especialmente tendo em conta a rapidez com que o mundo da IA se move e o tempo que os estudos em humanos podem levar. O próprio estudo de Bean usou o GPT-4o, que foi lançado há quase um ano e agora está desatualizado.
No início deste mês, o Google divulgou um estudo que atende aos padrões do Bean. No estudo, os pacientes discutiram preocupações médicas com o Articulate Medical Intelligence Explorer (AMIE) da empresa, um chatbot médico LLM que ainda não está disponível ao público, antes de se encontrarem com um médico humano. No geral, os diagnósticos da AMIE foram tão precisos quanto os dos médicos, e nenhuma das conversas levantou grandes preocupações de segurança para os investigadores.
Apesar dos resultados encorajadores, o Google não planeja lançar o AMIE tão cedo. “Embora a pesquisa tenha avançado, existem limitações significativas que devem ser abordadas antes da tradução no mundo real de sistemas de diagnóstico e tratamento, incluindo pesquisas adicionais sobre equidade, justiça e testes de segurança”, escreveu Alan Karthikesalingam, cientista pesquisador do Google DeepMind, por e-mail. O Google revelou recentemente que o Health100, uma plataforma de saúde que está construindo em parceria com a CVS, incluirá um assistente de IA alimentado por seus principais modelos Gemini, embora essa ferramenta presumivelmente não seja destinada a diagnóstico ou tratamento.
Rodman, que liderou o estudo AMIE com Karthikesalingam, não acredita que estudos tão extensos e plurianuais sejam necessariamente a abordagem certa para chatbots como ChatGPT Health e Copilot Health. “Há muitas razões pelas quais o paradigma dos ensaios clínicos nem sempre funciona na IA generativa”, diz ele. “E é aí que entra essa conversa sobre benchmarking. Existem benchmarks (de) um terceiro confiável que podemos concordar que são significativos e que os laboratórios podem seguir?”
Eles afirmam que existe “terceiro”. Não importa quão extensivamente as empresas avaliem os seus próprios produtos, é difícil confiar completamente nas suas conclusões. A avaliação por terceiros não só traz imparcialidade, mas se houver muitos terceiros envolvidos, também ajuda a proteger contra pontos cegos.
Singhal, da OpenAI, diz que é fortemente a favor da avaliação externa. “Fazemos o nosso melhor para apoiar a comunidade”, diz ele. “Parte da razão pela qual lançamos o HealthBench foi, na verdade, para dar à comunidade e a outros desenvolvedores de modelos um exemplo de como é uma avaliação muito boa.”
Dado o quão caro é produzir uma avaliação de alta qualidade, diz ele, ele está cético de que qualquer laboratório acadêmico individual seja capaz de produzir o que ele chama de “a única avaliação que governará todos eles”. Mas ele fala muito bem dos esforços que grupos acadêmicos têm feito para reunir avaliações preexistentes e novas em conjuntos de avaliações abrangentes – como a estrutura MedHELM de Stanford, que testa modelos em uma ampla variedade de tarefas médicas. Atualmente, o GPT-5 da OpenAI detém a pontuação MedHELM mais alta.
Nigam Shah, professor de medicina da Universidade de Stanford que liderou o projeto MedHELM, diz que tem limitações. Em particular, ele avalia apenas as respostas individuais do chatbot, mas alguém que busca aconselhamento médico em uma ferramenta de chatbot pode se envolver em uma conversa de ida e volta com várias voltas. Ele diz que ele e alguns colaboradores estão se preparando para construir uma avaliação que possa pontuar essas conversas complexas, mas que isso levará tempo e dinheiro. “Você e eu não temos capacidade de impedir que essas empresas lancem (produtos voltados para a saúde), então elas farão o que quiserem”, diz ele. “A única coisa que pessoas como nós podem fazer é encontrar uma maneira de financiar o benchmark.”
Ninguém entrevistado para este artigo argumentou que os LLMs de saúde precisam ter um desempenho perfeito em avaliações de terceiros para serem liberados. Os próprios médicos cometem erros – e para alguém que só tem acesso ocasional a um médico, um LLM consistentemente acessível que por vezes dá errado ainda pode ser uma enorme melhoria em relação ao status quo, desde que os seus erros não sejam demasiado graves.
No entanto, com o estado atual das evidências, é impossível saber com certeza se as ferramentas atualmente disponíveis constituem de facto uma melhoria ou se os seus riscos superam os seus benefícios.



