Com a inteligência artificial, a ciência acessou novas possibilidades. A capacidade de máquinas aprenderem e se adaptarem a novos desafios sempre soou como música para os ouvidos da comunidade científica. Mas será que a IA estaria conduzindo a uma crise de reprodutibilidade na ciência?
Vamos saber um pouco mais do que pensam os pesquisadores.
Nos tempos desafiadores da pandemia de COVID-19, lá por volta de 2020, enquanto o mundo se debatia com a falta de testes para o vírus, uma equipe de pesquisadores na Índia propôs uma solução engenhosa: diagnosticar a infecção por meio de radiografias de tórax, utilizando a inteligência artificial. A ideia era sedutora, especialmente quando se considerava que o olho humano muitas vezes falha em detectar diferenças sutis nas imagens. A pesquisa, embasada por este conceito, rapidamente ganhou notoriedade, sendo citada em mais de 900 artigos científicos.
Mas, como em muitas histórias de descobertas, havia uma reviravolta. Sanchari Dhar e Lior Shamir, dois cientistas da computação da Kansas State University, decidiram examinar mais de perto esses achados. Eles treinaram um algoritmo de aprendizado de máquina com as mesmas imagens de raio-X, mas focando apenas em partes em branco, sem qualquer parte do corpo humano de fundo, e de forma alarmante, o algoritmo ainda conseguia identificar casos de COVID-19 com precisão acima do acaso.
O cerne do problema é que as diferenças consistentes nos fundos das imagens médicas estavam sendo captadas pela IA, que as utilizava para “acertar” no diagnóstico. Em outras palavras, a IA não estava aprendendo características clínicas relevantes, mas sim se apegando a artefatos irrelevantes, – um fenômeno não se limitava à detecção de COVID-19. Estudos em outras áreas, desde a classificação de tipos celulares até o reconhecimento facial, mostravam padrões semelhantes de erro.
Este tipo de erro, aparentemente inocente, pode ter implicações sérias, especialmente na biomedicina, onde um diagnóstico errado pode significar a diferença entre a vida e a morte. Um levantamento realizado em 2021 analisou 62 estudos que usavam aprendizado de máquina para diagnosticar COVID-19 a partir de radiografias de tórax ou tomografias computadorizadas. O veredito foi que nenhum dos modelos de IA era clinicamente útil devido a falhas metodológicas ou vieses nos conjuntos de dados de imagens.
O desafio com a IA não se restringe à área médica. Os cientistas da computação, Sayash Kapoor e Arvind Narayanan, da Universidade de Princeton, apontaram para uma crise de reprodutibilidade em 17 campos da ciência, afetando centenas de trabalhos, em função do uso ingênuo da IA, em especial a fuga de dados – quando não há separação adequada entre os dados usados para treinar um sistema de IA e aqueles usados para testá-lo.
A inteligência artificial, com todo o seu poder estatístico e capacidade de identificar padrões ocultos, trouxe avanços em praticamente todas as áreas da ciência. No entanto, a adoção desinformada de softwares de IA está gerando uma enxurrada de pesquisas com alegações que não podem ser replicadas, ou que são errôneas ou inúteis na prática, apontando um problema que não é isolado e parece estar se espalhando por diversos campos do conhecimento.
Lorena Barba, engenheira aeronáutica da George Washington University, afirma que poucos campos, se é que algum, estão imunes a essa questão, e destaca que muitos artigos, mesmo em revistas e conferências prestigiadas, falham em estabelecer comparações sólidas, exageram nas afirmações, não reportam os custos computacionais completos, ignoram limitações ou não fornecem informações suficientes para reproduzir os resultados.
Inteligência artificial no mundo real
A transição da IA do laboratório para o mundo real é um outro desafio a ser superado. As teorias encontram a prática, e as consequências dessas interações são tanto fascinantes quanto desafiadoras.
Em primeiro lugar, devemos considerar o fenômeno conhecido como “fuga de dados” ou data leakage. Esse termo, talvez um pouco enigmático para muitos, refere-se a uma falha crítica no processo de treinamento dos algoritmos. Quando o conjunto de dados usado para treinar o programa se mistura de alguma forma com os dados usados para testá-la, ocorre uma espécie de “contaminação” do experimento. Kapoor e Narayanan, em seus estudos, ilustram como essa sutileza pode deturpar completamente os resultados. Por exemplo, se um algoritmo aprende características específicas de um instrumento médico ou de um indivíduo ao invés da doença que se deseja diagnosticar, estamos diante de um grave desvio de finalidade.
A importância dos testes de controle torna-se, então, incontestável. Realizar esses testes em fundos de imagens em branco, como sugere Shamir, é uma maneira de verificar se o algoritmo realmente está entendendo o que deveria. Essa prática é crucial para garantir que os resultados gerados façam sentido lógico e sejam aplicáveis no mundo real.
E falando em mundo real, é aqui que a história da IA ganha mais um contorno desafiador. Haibe-Kains, cientista da computação na Universidade de Toronto, no Canadá, lembra que a variação encontrada fora do laboratório é imensamente mais ampla e imprevisível. Os modelos de IA frequentemente não são testados para essas variações até que sejam efetivamente implantados, portanto os resultados que pareciam promissores em condições controladas falham ao serem confrontados com a complexidade e a imprevisibilidade do cotidiano.
Um exemplo marcante dessa dicotomia veio da Google Health. Um algoritmo desenvolvido para analisar imagens de retina e detectar retinopatia diabética, uma condição que pode levar à cegueira, enfrentou sérios obstáculos quando testado em clínicas na Tailândia. Treinado com imagens de alta qualidade, o sistema não estava preparado para lidar com condições abaixo do ideal, resultando em uma alta taxa de rejeição de imagens e, consequentemente, em um aumento desnecessário de consultas de acompanhamento para os pacientes.
Além disso, enfrentamos o desafio da representatividade dos dados. Quando os conjuntos de dados não refletem a distribuição do mundo real de forma equilibrada, os pesquisadores podem recorrer a técnicas de rebalanceamento, como a Técnica de Sobreamostragem Minoritária Sintética, como o SMOTE (do inglês Synthetic Minority Oversampling Technique).
No entanto, Bennett da Universidade DePaul em Chicago, Illinois, especialista no uso de métodos computacionais em saúde aponta que essa abordagem pode gerar uma falsa sensação de precisão, pois cria “dados falsos” com base em suposições inverificáveis sobre a distribuição dos dados subjacentes. Em outras palavras, em vez de equilibrar, essas técnicas podem acabar fabricando um conjunto de dados que perpetua os mesmos vieses presentes nos dados originais.
E mesmo os especialistas não estão imunes a esses desafios. Um exemplo disso foi o desafio internacional realizado por Gaël Varoquaux e sua equipe na INRIA, em Paris, para desenvolver algoritmos capazes de diagnosticar o espectro autista a partir de dados de ressonância magnética cerebral. Embora os algoritmos tenham apresentado resultados promissores em conjuntos de dados públicos, eles falharam em generalizar para um conjunto de dados privado, não visto anteriormente. Isso exemplifica um problema clássico da IA: o “overfitting”, ou seja, a adaptação excessiva a padrões específicos de um conjunto de dados pequeno, perdendo a capacidade de generalização.
Soluções e desafios da pesquisa com IA
Quando teorias se transformam em aplicações práticas, a promessa da IA é grande, mas a jornada para realizá-la é repleta de desafios que exigem soluções inovadoras e reflexões profundas.
Em agosto, uma luz no fim do túnel surgiu com a proposta de Kapoor, Narayanan e mais alguns pesquisadore: uma lista de verificação detalhada, englobando 32 questões cruciais que abrangem desde a qualidade dos dados até detalhes de modelagem e riscos de fuga de dados. Este checklist busca estabelecer um padrão transdisciplinar para a publicação de pesquisas baseadas em IA, um passo essencial para garantir a confiabilidade e a validade dos estudos nesta área tão dinâmica.
Além disso, listas de verificação específicas foram desenvolvidas para campos como ciências da vida e química, reforçando a necessidade de padrões rigorosos em todas as áreas da ciência que empregam a IA. Essas iniciativas são reflexo de uma crescente consciência sobre a importância da transparência e da abertura na pesquisa científica. A ideia de tornar métodos e dados completamente acessíveis está ganhando força, uma vez que estudos indicam que a reprodutibilidade melhora significativamente quando os autores originais fornecem apoio ativo, compartilhando dados e código.
Mas garantir a total reprodutibilidade em ciências computacionais e, em particular, na IA ainda é um desafio complexo. Os checklists, por mais detalhados que sejam, têm suas limitações. Eles podem assegurar a consistência dos resultados, mas não necessariamente a sua correção, e além disso, há a questão dos modelos de alto impacto criados por grandes empresas, que raramente disponibilizam seus códigos, pelo menos imediatamente, o que representa um obstáculo significativo para a comunidade científica.
As conferências de ciência da computação estão cada vez mais exigindo a disponibilidade de códigos para a publicação de trabalhos revisados por pares, mas essa prática ainda não é universal. Joaquin Vanschoren, da Universidade de Tecnologia de Eindhoven, na Holanda aponta que ainda estamos navegando em um mar de incertezas onde a exigência de código aberto é inconsistente.
Um ponto crítico nessa jornada é a disponibilidade de dados. A falta de conjuntos de dados públicos suficientes impede que os modelos sejam testados adequadamente, resultando na publicação de resultados de baixa qualidade que parecem ter um desempenho excepcional, um problema que é particularmente grave na pesquisa médica, onde a precisão e a confiabilidade são de extrema importância.
Além disso, os sistemas de IA generativos, como os modelos de linguagem LLM, apresentam riscos adicionais, uma vez que têm a capacidade de criar novos dados, incluindo texto e imagens, baseados em seus dados de treinamento, e se não forem utilizados com cuidado, podem acabar introduzindo artefatos, como alerta Viren Jain cientista investigador da Google em Mountain View, Califórnia, que trabalha no desenvolvimento de IA para visualizar e manipular grandes conjuntos de dados. Em sua própria experiência com imagens de tecido cerebral, ele observou que, sem as devidas validações, é fácil chegar a conclusões científicas incorretas.
Esses desafios nos levam a uma preocupação ainda maior: o uso deliberado da IA generativa para criar imagens científicas aparentemente autênticas, mas que são, na verdade, fabricações, podendo gerar problemas de integridade na ciência, uma questão que não pode ser ignorada.
IA na ciência: Repensando a cultura
Além dos desafios técnicos, outro aspecto crucial para garantir a integridade e confiabilidade dos dados para a ciência é a necessidade de uma mudança cultural na forma como dados e pesquisas são apresentados e relatados.
Em 2020, um momento emblemático dessa questão surgiu com a crítica de Haibe-Kains a um estudo da Google Health sobre o uso de machine learning para detectar câncer de mama em mamografias. A crítica central foi a falta de documentação suficiente e código aberto, elementos essenciais para validar o valor científico do estudo ou, em outras palavras, não havia informações suficientes sobre o estudo, impedindo sua reprodução. Essa situação ilustra um problema comum: muitas vezes, a pesquisa que utiliza IA é ofuscada por aspectos que impedem a verificação independente dos resultados.
A resposta dos autores do estudo criticado lança luz sobre uma complexidade adicional: a tensão entre a necessidade de compartilhar informações para a reprodutibilidade científica e as preocupações legítimas com a privacidade e a acessibilidade. Os pesquisadores argumentaram que restrições de privacidade os impediam de compartilhar todas as informações e que se esforçaram para documentar os métodos de aprendizado de máquina de maneira acessível a um público mais amplo.
Além disso, o cientista de dados Varoquaux, Gaël Varoquaux, do Instituto Nacional Francês de Pesquisa em Ciência e Tecnologia Digital (INRIA), em Paris e a cientista da computação Veronika Cheplygina, da Universidade de TI de Copenhagen, apontam que os incentivos atuais na publicação científica, particularmente a pressão para gerar manchetes atraentes, podem trabalhar contra a confiabilidade das descobertas baseadas em inteligência artificial. Este é um lembrete de que a ciência, embora baseada em dados e fatos, não está imune às influências do mundo editorial e da necessidade de reconhecimento.
Haibe-Kains adiciona uma dimensão preocupante a essa discussão, observando que os autores muitas vezes não cumprem as diretrizes de transparência de dados e que os editores de periódicos frequentemente não impõem rigorosamente essas regras, sugerindo um desconhecimento ou uma subestimação dos obstáculos reais versus fictícios para compartilhar dados e código, levando a justificativas superficiais para não compartilhar essas informações cruciais.
A dificuldade de ser completamente transparente, especialmente quando os próprios autores podem não entender totalmente o que estão fazendo, é um ponto destacado por Bennett. Essa falta de clareza não só prejudica a reprodutibilidade, mas também aprimora a possibilidade de conclusões científicas equivocadas.
Uma pesquisa da Nature em 2023 revelou visões divididas entre os cientistas que utilizam essa tecnologia sobre a adequação da revisão por pares para artigos relacionados à IA, refletindo um cenário em que mesmo os guardiões da integridade científica estão em desacordo sobre como abordar melhor as complexidades trazidas pela inteligência artificial.
Embora muitos problemas tenham sido levantados sobre trabalhos individuais, raramente eles parecem ser resolvidos de maneira definitiva. Casos individuais muitas vezes se perdem contra reclamações e disputas sobre detalhes finos. Por exemplo, nas investigações de Kapoor e Narayanan sobre o uso de machine learning para prever eclosões de guerra civil, as reivindicações de distorção por fuga de dados foram recebidas com refutações públicas pelos autores originais.
O futuro da IA na pesquisa científica
À medida que a IA se torna mais presente entre os pesquisadores, encontramos vozes divergentes sobre uma iminente crise decorrente dessa tecnologia. Para alguns, como o neurocientista da Aiforia Technologies, Lucas Stetzik, a IA é uma ferramenta promissora que, se bem aplicada, pode até mitigar vieses cognitivos que frequentemente permeiam a pesquisa científica, apontando para o potencial não apenas de revolucionar a forma como pesquisas são conduzidas, mas também de aprimorar a integridade e a precisão dos resultados.
Apesar das preocupações sobre a validade e confiabilidade das descobertas publicadas com base na IA, ainda não há evidências claras de que falhas tenham causado problemas graves, como diagnósticos incorretos na prática clínica, o que sugere que a crise prevista pode ainda não ser uma realidade concreta.
Joseph Cohen, cientista da Amazon AWS Health AI, que também dirige o Instituto sem fins lucrativos de pesquisa reprodutível, com sede nos EUA, apresenta uma visão otimista, sugerindo que os problemas com a IA em pesquisas científicas podem se resolver naturalmente ao longo do tempo, acreditando que a comunidade científica acabará por desacreditar autores e periódicos associados a pesquisas de baixa qualidade, um processo de autorregulação que já vimos em outras áreas da ciência.
O bioengenheiro Alex Trevino, da empresa de bioinformática Enable Medicine, em Menlo Park, Califórnia, acrescenta uma dimensão importante ao debate: a necessidade de abordagens interdisciplinares na pesquisa baseada em IA. A combinação da expertise de cientistas da computação na curadoria e no manuseio de conjuntos de dados com o conhecimento específico de domínio, como a biologia, é crucial para garantir resultados confiáveis e relevantes.
Olhando para o futuro, Casey Bennett, da Universidade DePaul em Chicago, Illinois, especialista no uso de métodos computacionais em saúde, prevê que, em uma ou duas décadas, teremos uma compreensão muito mais sofisticada do que a essa tecnologia pode oferecer e de como usá-la de forma eficaz. Este amadurecimento será semelhante ao desenvolvimento da compreensão biológica em relação a análises genéticas e doenças complexas.
Por fim, Viren Jain sugere que a reprodutibilidade das pesquisas com IA pode melhorar à medida que a comunidade científica converge em torno de modelos de fundação, como os modelos GPT-3 e GPT-4 da OpenAI. Esses modelos gerais, ao contrário dos modelos personalizados desenvolvidos internamente, têm maior probabilidade de gerar resultados reprodutíveis e confiáveis.
Neste cenário em evolução, Joaquin Vanschoren compara a trajetória da inteligência artificial à da indústria aeroespacial. Assim como nos primórdios da aviação, quando voar era uma atividade repleta de riscos, a IA está em seu estágio inicial e enfrenta seus próprios desafios, mas assim como décadas de engenharia refinada tornaram os aviões confiáveis, ele acredita que a IA seguirá um caminho semelhante e que com o tempo e o amadurecimento do campo, crescerá a capacidade de discernir quais sistemas são verdadeiramente confiáveis.
Diante disso, emerge uma questão crucial: será que a comunidade de pesquisa conseguirá conter os problemas atuais da IA enquanto navegamos em direção a esse futuro mais seguro e confiável? É uma pergunta que paira no ar, lembrando da necessidade de vigilância constante, além da abertura à inovação e colaboração no campo da inteligência artificial.
Fonte: Nature