A medicina é um dos segmentos onde a inteligência artificial e o aprendizado de máquina mostram um enorme potencial. No entanto, os avanços na área da saúde vêm acompanhados de desafios, especialmente quando se trata da justiça e equidade desses sistemas. O MIT (Massachusetts Institute of Technology) trouxe questões importantes sobre o assunto.
Se você quiser saber mais sobre o quanto a inteligência artificial está avançando no campo da medicina, clica aqui!
Antes de receber um PhD em ciência da computação pelo MIT, Marzyeh Ghassemi foi uma das primeiras a levantar uma questão importante: os modelos de inteligência artificial poderiam estar intensificando vieses existentes na medicina? Essa indagação levou-a a investigações mais profundas e, recentemente, um estudo significativo foi apresentado em uma conferência em Honolulu, Havaí.
O estudo do MIT, feito por Marzyeh em conjunto com outros dois doutorandos e uma cientista da computação, focou principalmente nas “mudanças de subpopulação”, que se referem às variações no desempenho dos modelos de aprendizado de máquina entre diferentes grupos de pacientes. Em vez de um modelo de inteligência artificial que funcione de maneira uniforme para todos, a pesquisa mostrou que podem existir variações significantes, levando a diagnósticos e tratamentos potencialmente inadequados para certos subgrupos.
4 tipos de vieses identificados no uso da Inteligência Artificial na medicina
Os autores utilizaram 20 algoritmos para investigar a mudança de subpopulação. Eles avaliaram como esses diferentes algoritmos de aprendizado de máquina se comportam diante dessa mudança e também exploraram como a seleção de modelo e a disponibilidade de atributos afetam essa avaliação.
Para compreender a origem dos vieses, a equipe identificou quatro categorias principais:
1. Correlações Espúrias: Às vezes, no treinamento, um atributo parece ligado ao resultado, mas isso não acontece no teste. Se o modelo acredita nessa falsa relação, pode errar nas previsões. Por exemplo, se todas as imagens de vacas estivessem associadas a pastos e camelos ao deserto, o modelo pode incorretamente associar o ambiente ao animal.
Para resolver, é preciso usar métodos que identificam essas falsas relações ou técnicas que evitam que o modelo dependa demais de um atributo.
2. Desequilíbrio de Atributo: Se certos atributos aparecem mais no treinamento de máquina do que no teste, o modelo pode dar importância demais a eles. Imagine que estamos treinando um modelo para identificar diferentes raças de cães em fotos. Se 90% das imagens de treino forem de labradores e apenas 10% de beagles, o modelo pode se tornar muito bom em reconhecer labradores e não tão bom em reconhecer beagles.
Para corrigir, é preciso aumentar a presença de atributos menos representados ou ajustar o modelo para considerar esse desequilíbrio.
3. Desequilíbrio de Classe: Quando um resultado aparece muito mais que outros no treinamento, o modelo pode se tornar tendencioso.
Pense assim: Estamos construindo um modelo para detectar transações fraudulentas em um banco. Apenas 0,1% das transações são fraudulentas. Se treinarmos o modelo com os dados brutos, ele pode aprender a classificar quase todas as transações como não fraudulentas, porque é muito mais comum. Assim, ele pode perder a maioria das fraudes reais.
Assim como o desequilíbrio de atributo, para solucionar seria preciso aumentar a presença de classes menos representadas ou ajustar o modelo. Se o desequilíbrio de atributo leva ao desequilíbrio de classe, corrigindo um, o outro também é beneficiado.
4. Generalização de Atributo: É quando o modelo precisa acertar resultados para atributos que não viu no treinamento. Para entender, suponha que treinemos um modelo para prever a preferência de sabor de sorvete das pessoas com base em sua idade, gênero e nacionalidade. Se durante o treinamento só tivéssemos dados de pessoas dos EUA e, depois, quiséssemos fazer previsões para pessoas do Brasil, o modelo poderia ter dificuldade, porque não foi exposto a atributos (ou combinações de atributos) relacionados a brasileiros durante o treinamento.
Para ajudar o modelo a se adaptar, poderiam ser usadas técnicas que utilizam outros conjuntos de dados parecidos ou criar exemplos fictícios com esses novos atributos.
Experimentos e conclusões do MIT
Para lidar com a mudança de subpopulação, os autores propõem algumas soluções. Uma delas é o uso de técnicas de transferência de aprendizado, pré-treinando o modelo em um conjunto de dados semelhante ao dos dados de teste. Outra ideia é criar exemplos sintéticos usando técnicas de aumento de dados, permitindo treinar o modelo em diferentes distribuições de atributos.
Ações como, por exemplo, ajustes no “classificador” poderiam diminuir correlações espúrias e desequilíbrio de classe. No entanto, problemas como a generalização de atributos permaneceram desafiadores.
Uma métrica frequentemente utilizada para avaliar a equidade dos modelos é a “acurácia do pior grupo” (WGA – worst-group accuracy), no entanto, a pesquisa mostrou que otimizar esta métrica pode comprometer a precisão do modelo. Ambas, precisão e acurácia, são vitais, especialmente no contexto médico, e equilibrá-las é crucial.
Apesar das descobertas, ainda há trabalho a ser feito. Testes em grandes conjuntos de dados revelaram desigualdades contínuas com base em idade, gênero e etnia. A visão compartilhada pelos pesquisadores é clara: alcançar a equidade em cuidados de saúde por meio da inteligência artificial.
O estudo do MIT ressalta a importância de abordar e entender os vieses em modelos de aprendizado de máquina no campo médico. À medida que a inteligência artificial avança, a necessidade de modelos justos e equitativos torna-se cada vez mais presente.
Quando se fala de saúde, o assunto é sempre muito sério e exige uma investigação rigorosa sobre a aplicação de qualquer recurso. Mas embora haja muito a ser feito para que essa tecnologia seja ainda melhor utilizada, não se pode ignorar as muitas possibilidades de salvar mais vidas que a inteligência artificial aplicada pode proporcionar.
Fonte: MIT – artigo completo disponível