Stethoscope. Image: Shutterstock/Decrypt

Em resumo

  • Os pesquisadores revelaram a Delphi-2m na natureza, uma IA que prevê o risco de mais de 1.000 doenças de até 20 anos.
  • O modelo superou as ferramentas de doença única, prevendo as co-morbidades e gerando trajetórias de saúde sintética a partir de registros médicos.
  • Treinado no biobank do Reino Unido e validado em registros de saúde dinamarquês de 1,9 milhão, o Delphi-2m mostra promessa, mas enfrenta preconceitos, privacidade e obstáculos de implantação.

Os pesquisadores construíram um sistema de IA que prevê o risco de desenvolver mais de 1.000 doenças até 20 anos antes que os sintomas apareçam, de acordo com um estudo publicado na Nature nesta semana.

O modelo, chamado Delphi-2m, alcançou uma precisão de 76% para previsões de saúde de curto prazo e manteve 70% de precisão, mesmo quando previa uma década no futuro.

Ele superou as calculadoras de risco existentes de doença única, avaliando simultaneamente riscos em todo o espectro da doença humana.

“A progressão da doença humana em toda a idade é caracterizada por períodos de saúde, episódios de doença aguda e também debilitação crônica, muitas vezes se manifestando como aglomerados de co-morbidade”, escreveram os pesquisadores. “Poucos algoritmos são capazes de prever todo o espectro da doença humana, que reconhece mais de 1.000 diagnósticos no nível superior da classificação internacional de doenças, o décimo sistema de codificação de revisão (CID-10)”.

O sistema aprendeu esses padrões de 402.799 participantes do biobank do Reino Unido e, em seguida, provou seu valor em 1,9 milhão de registros de saúde dinamarquesa sem nenhum treinamento adicional.

Antes de começar a esfregar as mãos com a idéia do seu próprio preditor médico, você pode tentar você mesmo Delphi-2m? Não exatamente.

O modelo treinado e seus pesos estão trancados atrás dos procedimentos de acesso controlado do BioBank no Reino Unido – apenas pesquisadores. A base de código para treinar sua própria versão está no GitHub sob uma licença do MIT, para que você possa construir tecnicamente seu próprio modelo, mas precisará de acesso a conjuntos de dados médicos maciços para fazê -lo funcionar.

Por enquanto, essa continua sendo uma ferramenta de pesquisa, não um aplicativo de consumidor.

Atrás da cortina

A tecnologia funciona tratando os históricos médicos como seqüências – assim como o ChatGPT processa o texto.

Cada diagnóstico, registrado com a idade que ocorreu pela primeira vez, se torna um token. O modelo lê esse “idioma” médico e prevê o que vem a seguir.

Com as informações e o treinamento adequados, você pode prever o próximo token (neste caso, a próxima doença) e o tempo estimado antes que o “token” seja gerado (quanto tempo até você ficar doente se ocorrer o conjunto de eventos mais provável).

Para um homem de 60 anos com diabetes e pressão alta, o Delphi-2m pode prever um risco aumentado de 19 vezes de câncer de pâncreas. Adicione um diagnóstico de câncer de pâncreas a essa história, e o modelo calcula o risco de mortalidade saltando quase dez mil vezes.

A arquitetura do transformador por trás da Delphi-2m representa a jornada de saúde de cada pessoa como uma linha do tempo dos códigos de diagnóstico, fatores de estilo de vida como fumar e IMC e dados demográficos. Os tokens de “sem eventos” preenchem as lacunas entre as visitas médicas, ensinando o modelo de que a passagem simples do tempo muda o risco de linha de base.

Isso também é semelhante à maneira como os LLMs normais podem entender o texto, mesmo que eles perca algumas palavras ou até frases.

Quando testado contra ferramentas clínicas estabelecidas, o Delphi-2m correspondeu ou excedeu seu desempenho. Para a previsão de doenças cardiovasculares, alcançou uma AUC de 0,70 em comparação com 0,69 para autoprognose e 0,71 para Qrisk3. Para demência, atingiu 0,81 versus 0,81 para o UKBDRS. A principal diferença: essas ferramentas prevêem condições únicas. Delphi-2m avalia tudo de uma vez.

Além das previsões individuais, o sistema gera trajetórias de saúde sintéticas inteiras.

A partir dos dados dos 60 anos, ele pode simular milhares de futuros possíveis de saúde, produzindo estima a carga de doenças em nível populacional com precisão dentro das margens estatísticas. Um conjunto de dados sintético treinou um modelo secundário de Delphi que alcançou 74% de precisão – apenas três pontos percentuais abaixo do original.

O modelo revelou como as doenças se influenciam ao longo do tempo. Os cânceres aumentaram o risco de mortalidade com uma “meia-vida” de vários anos, enquanto o efeito da septicemia caiu acentuadamente, retornando à quase base da linha em meses. As condições de saúde mental mostraram efeitos persistentes de agrupamento, com um diagnóstico prevendo fortemente outros nessa categoria anos depois.

Limitações

O sistema tem limites. Suas previsões de 20 anos caem para cerca de 60-70% de precisão em geral, mas as coisas dependerão de qual tipo de doença e condições tenta analisar e prever.

“Para 97% dos diagnósticos, a AUC foi superior a 0,5, indicando que a grande maioria seguiu padrões com pelo menos previsibilidade parcial”, diz o estudo, acrescentando mais tarde que “os valores médios de Delphi-2m diminuem de uma média de 0,76 a 0,70 após 10 anos” e que “o primeiro ano da amostra, e é de 0,76, em média, em uma média de 17%, em média, em média, em média, em média, a mais de 0,70, em média, em média, a mais de 0,76, em média, em média, em média, em média, em média, em média, em média, em uma média de 0,76, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média, em média. mais tarde.”

Em outras palavras, esse modelo é muito bom em prever coisas em cenários relevantes, mas muito pode mudar em 20 anos, por isso não é Nostradamus.

Doenças raras e condições altamente ambientais são mais difíceis de prever. A distorção demográfica do biobank do Reino Unido – principalmente voluntários brancos, educados e relativamente saudáveis ​​- introduz o viés que os pesquisadores reconhecem que as necessidades atendem.

A validação dinamarquesa revelou outra limitação: a Delphi-2m aprendeu algumas peculiaridades específicas de coleta de dados do Reino Unido. As doenças registradas principalmente em ambientes hospitalares pareciam inflados artificialmente, contradizendo os dados registrados pelo povo dinamarquês.

O modelo previu septicemia com oito vezes a taxa normal para qualquer pessoa com dados anteriores do hospital, em parte porque 93% dos diagnósticos de septicemia biobank do Reino Unido vieram de registros hospitalares.

Os pesquisadores treinaram o Delphi-2m usando uma arquitetura GPT-2 modificada com 2,2 milhões de parâmetros-pequenos em comparação com modelos de idiomas modernos, mas suficientes para a previsão médica. As principais modificações incluíram a codificação de idade contínua em vez de marcadores de posição discretos e um modelo de tempo de espera exponencial para prever quando os eventos ocorreriam, não apenas o que aconteceria.

Cada trajetória de saúde nos dados de treinamento continha uma média de 18 tokens de doença que abrangem o nascimento até os 80 anos. Sexo, categorias de IMC, status de fumo e consumo de álcool adicionaram contexto.

O modelo aprendeu a pesar esses fatores automaticamente, descobrindo que a obesidade aumentou o risco de diabetes enquanto fumava probabilidades elevadas de câncer – relações de que a medicina há muito estabeleceu, mas que surgiram sem programação explícita. É realmente um LLM para condições de saúde.

Para a implantação clínica, vários obstáculos permanecem.

O modelo precisa de validação em populações mais diversas – por exemplo, os estilos de vida e hábitos de pessoas da Nigéria, China e América podem ser muito diferentes, tornando o modelo menos preciso.

Além disso, as preocupações de privacidade sobre o uso de históricos de saúde detalhados exigem manuseio cuidadoso. A integração com os sistemas de saúde existentes apresenta desafios técnicos e regulatórios.

Mas as aplicações em potencial abrangem da identificação de candidatos à triagem que não atendem aos critérios de idade para modelar intervenções de saúde da população. As companhias de seguros, empresas farmacêuticas e agências de saúde pública podem ter interesses óbvios.

Delphi-2m se une a uma crescente família de modelos médicos baseados em transformadores. Alguns exemplos Inclua a ferramenta PDGROPHER de Harvard para prever combinações de drogas de genes que podem reverter doenças como Parkinson ou Alzheimer, um LLM treinado especificamente nas conexões de proteínas, o modelo de alfagenoma do Google treinado em pares de DNA e outros.

O que torna o Delphi-2m tão interessante e diferente é seu amplo escopo de ação, a enorme amplitude de doenças cobertas, seu longo horizonte de previsão e sua capacidade de gerar dados sintéticos realistas que preservam as relações estatísticas e protegendo a privacidade individual.

Em outras palavras: “Quanto tempo eu tenho?” em breve pode ser menos uma pergunta retórica e mais um ponto de dados previsível.

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo generativo de IA.

Fontedecrypt

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *