Photo by Anthropic

OpenAI, Google e Anthropic anunciaram recursos especializados de IA médica com poucos dias de diferença neste mês, um agrupamento que sugere pressão competitiva em vez de um momento coincidente. No entanto, nenhum dos lançamentos é aprovado como dispositivo médico, aprovado para uso clínico ou disponível para diagnóstico direto do paciente – apesar da linguagem de marketing enfatizar a transformação dos cuidados de saúde.

A OpenAI lançou o ChatGPT Health em 7 de janeiro, permitindo que usuários dos EUA conectassem registros médicos por meio de parcerias com b.well, Apple Health, Function e MyFitnessPal. O Google lançou o MedGemma 1.5 em 13 de janeiro, expandindo seu modelo aberto de IA médica para interpretar tomografias tridimensionais e ressonâncias magnéticas juntamente com imagens histopatológicas de slides inteiros.

A Anthropic seguiu em 11 de janeiro com Claude for Healthcare, oferecendo conectores compatíveis com HIPAA para bancos de dados de cobertura CMS, sistemas de codificação CID-10 e o Registro Nacional de Identificadores de Provedores.

Todas as três empresas têm como alvo os mesmos pontos problemáticos do fluxo de trabalho – revisões de autorização prévia, processamento de sinistros, documentação clínica – com abordagens técnicas semelhantes, mas estratégias de entrada no mercado diferentes.

Plataformas de desenvolvedores, não produtos de diagnóstico

As semelhanças arquitetônicas são notáveis. Cada sistema usa modelos multimodais de grande linguagem ajustados à literatura médica e conjuntos de dados clínicos. Cada um enfatiza proteções de privacidade e isenções regulatórias. Cada um se posiciona mais como apoio do que como substituto do julgamento clínico.

As diferenças estão nos modelos de implantação e acesso. O ChatGPT Health da OpenAI opera como um serviço voltado para o consumidor com uma lista de espera para assinantes ChatGPT Free, Plus e Pro fora do EEE, Suíça e Reino Unido. O MedGemma 1.5 do Google é lançado como um modelo aberto por meio do programa Health AI Developer Foundations, disponível para download via Hugging Face ou implantação por meio do Vertex AI do Google Cloud.

O Claude for Healthcare da Anthropic integra-se aos fluxos de trabalho empresariais existentes por meio do Claude for Enterprise, visando compradores institucionais em vez de consumidores individuais. O posicionamento regulatório é consistente em todos os três.

A OpenAI afirma explicitamente que a Saúde “não se destina ao diagnóstico ou tratamento”. O Google posiciona o MedGemma como “ponto de partida para os desenvolvedores avaliarem e se adaptarem aos seus casos de uso médico”. A Anthropic enfatiza que os resultados “não se destinam a informar diretamente o diagnóstico clínico, as decisões de manejo do paciente, as recomendações de tratamento ou quaisquer outras aplicações diretas da prática clínica”.

Desempenho de referência versus validação clínica

Os resultados do benchmark de IA médica melhoraram substancialmente em todas as três versões, embora a lacuna entre o desempenho do teste e a implantação clínica permaneça significativa. O Google relata que o MedGemma 1.5 alcançou 92,3% de precisão no MedAgentBench, o benchmark de conclusão de tarefas de agentes médicos de Stanford, em comparação com 69,6% da linha de base anterior do Sonnet 3.5.

O modelo melhorou 14 pontos percentuais na classificação de doenças por ressonância magnética e 3 pontos percentuais nos achados de tomografia computadorizada em testes internos. Claude Opus 4.5 da Anthropic obteve pontuação de 61,3% nos testes de precisão de cálculo médico MedCalc com execução de código Python habilitada e 92,3% no MedAgentBench.

A empresa também afirma melhorias nas “avaliações de honestidade” relacionadas a alucinações factuais, embora métricas específicas não tenham sido divulgadas.

A OpenAI não publicou comparações de benchmark especificamente para o ChatGPT Health, observando, em vez disso, que “mais de 230 milhões de pessoas em todo o mundo fazem perguntas relacionadas à saúde e ao bem-estar no ChatGPT todas as semanas” com base em análises não identificadas dos padrões de uso existentes.

Esses benchmarks medem o desempenho em conjuntos de dados de testes selecionados, e não os resultados clínicos na prática. Os erros médicos podem ter consequências potencialmente fatais, traduzindo a precisão dos parâmetros de referência numa utilidade clínica mais complexa do que noutros domínios de aplicação de IA.

A via regulatória permanece obscura

O quadro regulamentar para estas ferramentas médicas de IA permanece ambíguo. Nos EUA, a supervisão da FDA depende do uso pretendido. Software que “apoia ou fornece recomendações a um profissional de saúde sobre prevenção, diagnóstico ou tratamento de uma doença” pode exigir revisão pré-comercialização como dispositivo médico. Nenhuma das ferramentas anunciadas tem autorização da FDA.

As questões de responsabilidade também não são resolvidas. Quando Mike Reagin, CTO da Banner Health, afirma que o sistema de saúde foi “atraído pelo foco da Anthropic na segurança da IA”, isso aborda critérios de seleção de tecnologia, não estruturas de responsabilidade legal.

Se um médico confiar na análise de autorização prévia de Claude e um paciente sofrer danos devido ao atraso no atendimento, a jurisprudência existente fornece orientação limitada sobre a atribuição de responsabilidades.

As abordagens regulatórias variam significativamente entre os mercados. Embora a FDA e o Regulamento de Dispositivos Médicos da Europa forneçam estruturas estabelecidas para software como dispositivo médico, muitos reguladores da APAC não emitiram orientações específicas sobre ferramentas generativas de diagnóstico de IA.

Esta ambiguidade regulamentar afecta os prazos de adopção em mercados onde as lacunas nas infra-estruturas de saúde poderiam, de outra forma, acelerar a implementação – criando uma tensão entre a necessidade clínica e a cautela regulamentar.

Fluxos de trabalho administrativos, não decisões clínicas

As implantações reais permanecem cuidadosamente definidas. Louise Lind Skov, Diretora de Digitalização de Conteúdo da Novo Nordisk, descreveu o uso de Claude para “automação de documentos e conteúdo no desenvolvimento farmacêutico”, com foco em documentos de submissão regulatória em vez de diagnóstico de pacientes.

A Administração Nacional de Seguro de Saúde de Taiwan aplicou o MedGemma para extrair dados de 30.000 relatórios de patologia para análise de políticas, não para decisões de tratamento.

O padrão sugere que a adoção institucional está concentrada em fluxos de trabalho administrativos onde os erros são menos imediatamente perigosos – faturação, documentação, elaboração de protocolos – em vez de apoio direto à decisão clínica, onde as capacidades de IA médica teriam o impacto mais dramático nos resultados dos pacientes.

As capacidades de IA médica estão avançando mais rápido do que as instituições que as implantam conseguem navegar pelas complexidades regulatórias, de responsabilidade e de integração de fluxo de trabalho. A tecnologia existe. A assinatura mensal de US$ 20 fornece acesso a ferramentas sofisticadas de raciocínio médico.

Se isso se traduz numa prestação de cuidados de saúde transformada depende de questões que estes anúncios coordenados deixam sem resposta.

Veja também: AstraZeneca aposta em IA interna para acelerar pesquisas oncológicas

Quer saber mais sobre IA e big data dos líderes do setor? Confira a AI & Big Data Expo que acontece em Amsterdã, Califórnia e Londres. O evento abrangente faz parte da TechEx e está localizado junto com outros eventos de tecnologia líderes. Clique aqui para mais informações.

AI News é desenvolvido pela TechForge Media. Explore outros eventos e webinars de tecnologia empresarial futuros aqui.

Fontesartificialintelligence

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *