Os chatbots estão ficando menos inteligentes? Nos últimos anos, os modelos de inteligência artificial têm evoluído de maneira impressionante, permitindo avanços significativos em áreas como geração de texto, tradução automática e até mesmo atendimento ao cliente, mas essa evolução enfrenta seus desafios. À medida que os chatbots se tornam maiores e mais sofisticados, a tendência de fornecer respostas erradas também aumenta — e o pior: muitas vezes os usuários nem percebem que essas respostas estão incorretas.
Um estudo recente, conduzido por José Hernández-Orallo do Instituto Valenciano de Pesquisa em Inteligência Artificial, traz à tona uma questão preocupante: quanto mais complexos os modelos de linguagem (LLMs) se tornam, mais propensos estão a oferecer respostas erradas. Esses modelos, incluindo o GPT da OpenAI, o LLaMA da Meta e o BLOOM da BigScience, são constantemente aprimorados com grandes quantidades de dados e recursos computacionais. A expectativa natural é que eles se tornem mais precisos — e de fato isso acontece, em muitos casos. Contudo, essa maior precisão vem acompanhada de uma tendência inquietante: os sistemas apresentam uma “relutância” em admitir que não sabem a resposta para determinadas perguntas.
Historicamente, os modelos de IA, quando confrontados com uma pergunta difícil, muitas vezes desviavam ou simplesmente afirmavam não ter a resposta. Contudo, os modelos mais recentes, especialmente aqueles que passaram por técnicas de refinamento como o aprendizado por reforço a partir do feedback humano, estão cada vez mais inclinados a responder qualquer coisa, seja uma informação verdadeira ou não. Esse comportamento pode parecer uma vantagem à primeira vista, mas na prática leva a uma enxurrada de respostas incorretas.
Chatbots que “sabem de tudo”
Essa propensão a “responder tudo” tem consequências sérias. Segundo o estudo, o número de respostas erradas aumentou proporcionalmente ao número de respostas oferecidas pelos chatbots. Isso significa que, embora os modelos sejam capazes de fornecer mais respostas corretas, também estão mais propensos a errar. E esses erros são muitas vezes difíceis de serem identificados pelos próprios usuários.
O que está acontecendo, na verdade, é que esses chatbots se tornaram muito bons em parecer que sabem o que estão dizendo, mesmo quando estão completamente errados. Mike Hicks, filósofo de ciência e tecnologia da Universidade de Glasgow, descreve essa tendência como “ultracrepidarianismo”, ou seja, a prática de opinar sobre assuntos fora de seu conhecimento. O problema é que esses modelos não possuem a capacidade de julgar adequadamente seus próprios limites — eles simplesmente respondem.
Esse cenário cria uma situação perigosa. Como a maioria das pessoas tem dificuldade em identificar respostas incorretas, há uma tendência crescente de confiar cegamente nos resultados oferecidos pelos chatbots. Em um ambiente onde a IA parece saber tudo, é fácil para o usuário comum superestimar as capacidades dessas ferramentas. O estudo mostrou que entre 10% e 40% das respostas incorretas foram consideradas corretas pelos usuários, indicando uma limitação significativa na capacidade humana de supervisionar e validar os resultados gerados por esses sistemas.
Além disso, mesmo perguntas relativamente simples, que deveriam ser fáceis para os modelos de IA, às vezes resultam em erros. Isso aponta para uma falta de uma “zona de segurança” na qual os usuários podem confiar plenamente nas respostas fornecidas. Em outras palavras, não importa se a pergunta é fácil ou difícil, sempre há uma chance de o modelo errar.
Um caminho para chatbots mais confiáveis
Dado esse cenário, uma questão importante surge: como melhorar a confiabilidade desses modelos de IA? Hernández-Orallo sugere que os desenvolvedores se concentrem em fazer com que os chatbots ofereçam respostas mais confiáveis para perguntas fáceis, e que aprendam a evitar responder perguntas muito difíceis. Isso criaria um ambiente onde os usuários poderiam entender melhor em que situações a IA é confiável e quando é melhor desconfiar das respostas.
Essa abordagem pode parecer contraintuitiva, especialmente em um mundo onde as IAs são muitas vezes julgadas por sua capacidade de responder a tudo. Modelos que evitam responder certas perguntas podem ser vistos como “menos úteis” em algumas classificações de desempenho. No entanto, a precisão, e não a quantidade de respostas, deveria ser a prioridade. Um chatbot que sabe quando não sabe é muito mais útil do que um que responde tudo, independentemente da veracidade.
O problema com os modelos atuais é que, ao oferecer uma resposta — mesmo errada —, eles criam uma falsa sensação de conhecimento. Hernández-Orallo aponta, por exemplo, que modelos avançados como o GPT-4 ainda cometem erros triviais, como ao tentar multiplicar dois números longos. Em vez de simplesmente admitir que não têm capacidade para realizar a tarefa com precisão, esses modelos oferecem uma resposta incorreta, o que pode induzir os usuários ao erro.
Um dos pontos centrais levantados no estudo é a necessidade de que os chatbots aprendam a reconhecer seus próprios limites. Há modelos, segundo a pesquisa, que já apresentam a capacidade de dizer “não sei” ou “não tenho informações suficientes para responder a essa pergunta”. Isso é particularmente importante em contextos especializados, como na área médica, onde respostas erradas podem ter consequências graves. No entanto, em modelos de uso geral, essa abordagem ainda não é amplamente adotada.
Para empresas que desenvolvem chatbots de uso amplo, oferecer uma IA que se recusa a responder pode ser visto como um risco, pois o público pode considerar essa hesitação como um sinal de fraqueza, mas, na realidade, o contrário é verdadeiro. Uma IA que reconhece suas limitações é mais confiável e, em última análise, mais segura.
Fato é que o crescimento dos modelos de IA, sem dúvida, trouxe avanços notáveis em termos de capacidade de processamento de informações e geração de resposta, mas esta propensão de responder tudo é uma falha fundamental. O estudo de Hernández-Orallo e sua equipe destaca a importância de equilibrar a busca por precisão com a necessidade de responsabilidade no uso dessas tecnologias, logo, o papel do ser humano é fundamental para o uso responsável desses chatbots, tanto no sentido de ter um olhar crítico para as respostas quanto no sentido de que será essencial que os desenvolvedores busquem soluções para melhorar a confiabilidade das respostas.
Fonte: Nature