A inteligência artificial (IA) tem sido uma grande promessa para a medicina personalizada, oferecendo esperanças de tratamentos mais eficazes e direcionados às necessidades individuais dos pacientes. No entanto, as coisas são mais complexas quando o assunto é medicina, um campo que demanda uma acurácia em relação à singularidade humana.
Esta semana, um estudo publicado no JAMA Pediatrics apontou que o ChatGPT, que utiliza o modelos de linguagem LLM, em sua quarta versão, teve uma taxa de erro de 83% nos diagnósticos de casos médicos pediátricos, contra uma uma taxa de precisão de 39% em uma análise feita no ano passado.
O chatbot foi testado em 100 casos pediátricos publicados no JAMA Pediatrics e NEJM entre 2013 e 2023, e os resultados desta pesquisa conduzida por especialistas do Cohen Children’s Medical Center, em Nova York, sugerem que os casos pediátricos exigem mais consideração à idade do paciente, uma vez que diagnosticar doenças em bebês e crianças pequenas por ser mais difícil identificar ou articular todos os sintomas que estão sentindo.
Quer saber tudo sobre LLM? Clique aqui entenda mais!
Nova falha da IA na medicina
Outro novo estudo recente publicado na revista “Science” revela uma falha crítica desses algoritmos quando confrontados com dados novos e desconhecidos, especialmente no tratamento da esquizofrenia, uma descoberta que levanta questões importantes sobre a confiabilidade e a aplicabilidade das ferramentas de IA em situações do mundo real.
A pesquisa, liderada por especialistas da Universidade de Yale, analisou um algoritmo comumente usado em modelos de previsão psiquiátrica. Os dados para o estudo vieram de cinco ensaios clínicos envolvendo 1.513 participantes diagnosticados com esquizofrenia, realizados na América do Norte, Ásia, Europa e África, entre 2004 e 2009. Esses ensaios mediram os sintomas dos participantes antes e quatro semanas após o tratamento com três diferentes drogas antipsicóticas.
Os resultados mostraram que, enquanto o algoritmo era capaz de prever com alta precisão os resultados do tratamento para o conjunto de dados no qual foi treinado, sua eficácia caía drasticamente ao ser aplicado a subconjuntos da amostra inicial ou a conjuntos de dados diferentes. Essencialmente, as previsões se tornavam quase aleatórias quando o algoritmo enfrentava informações com as quais não havia sido previamente treinado.
Isso ressalta um problema significativo com a IA em medicina: a incapacidade de generalizar aprendizados para novos casos. Para ser eficaz, um modelo de previsão precisa ser consistentemente preciso em diferentes casos, minimizando viéses ou resultados aleatórios. Adam Chekroud, psiquiatra da Universidade de Yale em New Haven, Connecticut e coautor do estudo, destaca isso como um grande problema ao qual as pessoas ainda não se atentaram completamente.
Inicialmente, a equipe de pesquisa testou a precisão do algoritmo nos mesmos ensaios clínicos em que foi desenvolvido, comparando as previsões do algoritmo com os resultados reais desses ensaios, e observaram que a precisão era alta nesse contexto.
Para avaliar a capacidade do modelo de se adaptar a novos dados, os pesquisadores adotaram uma abordagem diferente. Primeiro, aplicaram o algoritmo a diferentes subconjuntos de dados dentro de um mesmo ensaio clínico e depois expandiram o teste aplicando o algoritmo em um ensaio clínico completamente distinto. Além disso, experimentaram treinar o algoritmo usando todos os dados disponíveis de um ou mais ensaios clínicos e, em seguida, avaliaram seu desempenho em um outro ensaio clínico separado dos anteriores. Esses testes adicionais eram essenciais para entender como o algoritmo se comportava fora do conjunto de dados original em que foi treinado.
Em todos esses testes, o modelo apresentou desempenho fraco, gerando previsões que pareciam quase aleatórias quando aplicadas a um conjunto de dados no qual não havia sido treinado. A equipe repetiu o experimento com um algoritmo de previsão diferente, mas obteve resultados semelhantes.
Esses achados são significativos porque destacam a necessidade de testar rigorosamente os modelos de previsão clínica em grandes conjuntos de dados para garantir que eles sejam confiáveis. Uma revisão sistemática de 308 modelos de previsão clínica para resultados psiquiátricos descobriu que apenas cerca de 20% dos modelos foram validados em amostras diferentes daquelas nas quais foram desenvolvidos.
O futuro da inteligência artificial na medicina
A importância de testes rigorosos e validação extensiva é reforçada por Chekroud, que sugere que o desenvolvimento de algoritmos na medicina deve ser encarado com uma disciplina semelhante ao desenvolvimento de medicamentos. Muitos medicamentos mostram promessas em ensaios clínicos iniciais, mas falham nas etapas posteriores. Da mesma forma, não se pode simplesmente construir esses algoritmos e testá-los uma única vez, assumindo sua eficácia universal.
A falha dos algoritmos de IA para se adaptarem a novos conjuntos de dados na medicina personalizada, especialmente em um campo tão complexo quanto o tratamento da esquizofrenia, é um alerta, sugerindo que, apesar do potencial da IA, ainda estamos longe de um ponto em que podemos confiar cegamente nessas tecnologias para decisões críticas de saúde. A pesquisa atual ressalta a necessidade de uma abordagem mais cautelosa e metódica no desenvolvimento e na implementação de ferramentas de IA na medicina.
Esta descoberta é crucial, especialmente considerando a tendência crescente de incorporar a IA na prática médica. Afinal, ao confiarmos em algoritmos para tomar decisões que afetam a vida das pessoas, devemos garantir que esses sistemas sejam não apenas inteligentes, mas também adaptáveis, confiáveis e testados em uma variedade de cenários clínicos. O rigoroso escrutínio científico e ético na medicina é indispensável para que a inteligência artificial possa garantir mais benefícios do que riscos às vidas humanas.
Fonte: Nature