Sabe aqueles sistemas de inteligência artificial que mandam muito bem nas tarefas mais complexas, como passar em exames complicados, escrever redações e conversar tão bem que até confundimos com um humano? Pois é, parece que eles têm um calcanhar de Aquiles: resolver simples quebra-cabeças visuais de lógica.
Em um teste envolvendo blocos coloridos dispostos em uma tela, a maioria de nós consegue enxergar os padrões que os conectam num piscar de olhos. Mas o GPT-4, a versão mais avançada do sistema de inteligência artificial que alimenta o ChatGPT e o Bing, acerta apenas cerca de um terço desses enigmas em uma categoria de padrões e apenas míseros 3% em outra categoria, de acordo com um relatório de pesquisadores publicado em maio deste ano.
E aí você se pergunta: por que raios eles estão testando essas super IAs com bloquinhos coloridos? O objetivo é estabelecer um novo padrão para avaliar as capacidades desses sistemas. Isso ajudaria a solucionar um dilema sobre modelos LLMs (Large Language Models) como o GPT-4: eles são geniais em alguns testes, mas, em outros, parecem menos brilhantes, mostrando falhas óbvias e uma incapacidade de raciocinar sobre conceitos abstratos.
“O pessoal do campo da IA está se debatendo sobre como avaliar esses sistemas“, afirma Melanie Mitchell, uma cientista da computação do Instituto Santa Fe, em New Mexico, cuja equipe criou os quebra-cabeças de lógica.
De maneira geral, existem dois grupos de pesquisadores com opiniões opostas sobre o que está rolando nos sistemas de inteligência artificial com LLM, diz Tomer Ullman, cientista cognitivo da Universidade de Harvard. Alguns atribuem os feitos dos algoritmos a vislumbres de raciocínio ou compreensão, outros (incluindo ele mesmo e pesquisadores como Mitchell) são muito mais cautelosos. Ele afirma que existem especialistas muito competentes de ambos os lados e que a falta de evidência conclusiva que apoie qualquer opinião é o que gera essa divergência.
Mais do que resolver as opiniões contraditórias, as pesquisas sobre como testar melhor os LLMs tem um objetivo prático: Se esses modelos vão ser aplicados em domínios do mundo real – da medicina ao direito – é importante entender os limites de suas capacidades, diz Mitchell.
O Teste de Turing não serve mais para testar a IA?
O teste mais famoso de inteligência artificial é o Teste de Turing. O matemático e cientista da computação, Alan Turing, em 1950, sugeriu uma avaliação que ele chamou de jogo da imitação. Nesse cenário, juízes humanos conduziam conversas curtas, baseadas em texto, com um computador oculto e uma pessoa invisível. O juiz conseguiria detectar de maneira confiável qual era o computador e qual era o humano? Essa foi a pergunta que equivale a “As máquinas podem pensar?”, sugeriu Turing à época.
O cientista britânico Turing não especificou muitos detalhes sobre o cenário, observa Mitchell, então não há um roteiro exato a seguir. François Chollet, um engenheiro de software do Google, aponta que o teste estava mais para um experimento de pensamento do que um teste real.
Mas a ideia de usar a linguagem para detectar se uma máquina é capaz de pensar persistiu e Rob Wortham, co-diretor da UK Society for the Study of Artificial Intelligence and Simulation of Behaviour afirma que os LLMs agora teriam uma boa chance de enganar humanos no Teste de Turing, o que também é aceito por outros pesquisadores, pelo menos por conversas curtas.
Chollet, no entanto, afirma que ele encontraria facilmente uma inteligência artificial com LLM, explorando as conhecidas fraquezas dos sistemas. A chave, segundo ele, é levar o LLM para fora de sua zona de conforto, apresentando cenários que são variações das que essa inteligência artificial teve em grande ocorrência em seus dados de treinamento.
Chollet e outros são céticos sobre a utilização de um teste centrado em enganar como meta para a ciência da computação, pois isso incentiva os desenvolvedores de chatbots a fazerem uma inteligência artificial a realizar truques, em vez de direcionar esforços para desenvolver capacidades úteis ou interessantes.
As controvérsias da avaliação por desempenho
Em vez do Teste de Turing, os pesquisadores costumam avaliar os sistemas de inteligência artificial usando benchmarks para medir o desempenho em capacidades específicas, como habilidade linguística, raciocínio de senso comum e capacidade matemática e cada vez mais, estão se voltando para avaliações mais especializadas, direcionadas a seres humanos, como exames acadêmicos e profissionais.
A OpenAI, testou o desempenho do seu GPT-4 com uma série de benchmarks projetados para máquinas, incluindo compreensão de leitura, matemática e programação, e o modelo foi bem-sucedido na maioria deles, segundo a empresa. O GPT-4 também esteve entre os 10% das melhores pontuações em testes específicos, tais como processos seletivos para estudantes e qualificação para advogados.
Mitchell diz que modelos de linguagem como esse podem se sair bem nesses testes não porque podem superar humanos, mas porque os benchmarks são limitados. O problema conhecido como contaminação aponta que por esses modelos serem treinados com tanto texto, eles podem estar essencialmente só procurando a resposta em perguntas semelhantes, portanto, não superando um humano.
A OpenAI sugeriu que os sucessos nos testes não poderiam ser atribuídos majoritariamente à contaminação, devido a um teste realizado onde foram removidas sequências de palavras semelhantes, que mostrou pouca diferença nos resultados antes e depois da exclusão dessas sequências.
Alguns pesquisadores questionaram se esse teste é rigoroso o suficiente, e outros acham que, independente de os outputs serem resultado de memorização, isso muda pouco no quadro geral. Também alertam que os LLMs podem não ser totalmente eficazes em exemplos no mundo real, sendo possível mudar ligeiramente as questões do exame e fazê-los falhar, diz Mitchell, que já fez experimentos que comprovaram isso.
Para um ser humano, altas pontuações em exames específicos podem indicar que alguém que se saísse bem em exames específicos poderia ser considerado capaz de ter sucesso em outros testes cognitivos, tendo compreendido certos conceitos abstratos. Mas, para Mitchell, isso não acontece no caso das máquinas.
Nick Ryder, pesquisador da OpenAI, concorda, dizendo que as pontuações dos testes realizados pela OpenAI “não pretendem ser uma declaração de capacidade ou raciocínio semelhante ao humano. Eles têm a intenção de ser uma declaração de como o modelo se sai nessa tarefa“.
Pesquisadores também exploraram essa inteligência artificial de maneira mais ampla do que por meio de benchmarks de máquinas convencionais e exames humanos, e documentaram uma série de capacidades que não estavam diretamente ou obviamente conectadas à linguagem. E sua conclusão foi de que dada a amplitude e profundidade das capacidades do GPT-4, ele poderia ser visto como uma versão inicial (embora ainda incompleta) de um sistema de inteligência geral artificial (AGI).
Sébastien Bubeck, da Microsoft Research em Redmond, Washington, que esteve envolvido nessa pesquisa, esclareceu à Nature que o GPT-4 certamente não pensa como uma pessoa, e qualquer habilidade que ele tenha, ele tem à sua maneira particular, que é diferente de um ser humano.
Os pesquisadores da inteligência artificial de modelo LLM, dizem que são necessárias auditorias extensas e rigorosas para descobrir os pontos fortes e fracos dessa tecnologia e que os quebra-cabeças lógicos coloridos podem ser uma boa opção.
Novos testes para a inteligência artificial
Em 2019, antes da ascensão dos LLMs, Chollet criou e compartilhou online um novo tipo de teste lógico para sistemas de inteligência artificial, chamado ARC (Abstraction and Reasoning Corpus), destinado a avaliar sua capacidade de se adaptar a coisas inéditas, argumentando que essa habilidade de se adaptar é a essência da inteligência. Portanto, a capacidade que diferencia os humanos seria a de fazer abstrações a partir do conhecimento cotidiano e aplicar a problemas nunca vistos antes.
Chollet organizou uma competição para bots em 2020 resolverem seu ARC, e os seres humanos levaram a melhor, resolvendo corretamente os problemas propostos 80% do tempo, contra 21% da inteligência artificial programada para realizar especificamente tarefas semelhantes. Porém naquele momento os sistemas de inteligência artificial não tinham as capacidades gerais de um modelo LLM.
Várias equipes de pesquisadores acabaram por usar o ARC para testar os modelos de inteligência artificial com LLMs: nenhum chegou perto do desempenho humano.
Mitchell e seus colegas, inspirados pelo ARC, criaram um conjunto de novos desafios – conhecidos como ConceptARC. O objetivo era reduzir as chances de que um sistema inteligente de máquina pudesse passar no teste sem compreender os conceitos, se diferenciando do ARC pelos desafios mais fáceis, visando registrar qualquer avanço mínimo nas habilidades das máquinas, e pela intenção de testar as habilidades da inteligência artificial sobre conceitos específicos através de variações diferentes dentro de um mesmo tema.
Aqui está um exemplo da aplicação:
Para testar o conceito de igualdade, um quebra-cabeça requer que o solucionador mantenha objetos no padrão que têm as mesmas formas; outro quebra-cabeça exige manter objetos que estão alinhados ao longo do mesmo eixo.
Os testes para inteligência artificial apresentam conclusão definitiva?
No novo desafio, a equipe de Mitchell mostrou que as máquinas ainda não conseguem alcançar os humanos, que atingiram 91% de acertos em todos os grupos de conceitos (e 97% em um desses grupos); contra 33% do GPT-4 obteve 33% em um grupo e menos de 30% em todos os demais grupos.
Sam Bowman, um cientista de tecnologia de linguagem da Universidade de Nova York, no entanto, diz que o ConceptARC é tendencioso contra o GPT-4 e não prova que o modelo carece de capacidades fundamentais de raciocínio abstrato. Um dos argumentos seria em função de se tratar de um modelo visual, onde não está o melhor desempenho desse tipo de inteligência artificial, e Mitchell concorda que pode não ser uma comparação totalmente justa, e diz estar esperando a Open AI liberar o seu modelo multimodal do GPT-4 para realizar novos testes, sustentando até o momento sua opinião de que as humanos ainda se sairão melhor.
Argumento a favor do raciocínio
Apesar de reconhecer que as capacidades de raciocínio dos LLMs em geral são “irregulares” e mais limitadas do que nos seres humanos, Bowman aponta que os resultados de um conjunto de experimentos sugerem para ele que os LLMs adquiriram pelo menos alguma habilidade de raciocinar sobre conceitos abstratos.
Como no exemplo do cientista da computação Kenneth Li, da Universidade de Harvard, que, através de uma versão digital do jogo de tabuleiro Othello, a inteligência artificial se tornou muito boa em sugerir acuradamente os próximos movimentos. Por isso, ele argumentou que tinham evidências de que o modelo estava acompanhando o estado do tabuleiro, usando uma representação para sugerir movimentos, em vez de apenas criar sugestões a partir dos dados utilizados para o treinamento da máquina.
Mesmo ressaltando que esses sistemas de inteligência artificial falham completamente em algumas habilidades particulares de raciocínio abstrato, Bowman diz acreditar que exista nas máquinas a capacidade básica de raciocinar.
Grande parte dos pesquisadores concordam que a melhor maneira de testar os LLMs de inteligência artificial para habilidades de raciocínio abstrato e outros sinais de inteligência continua sendo um problema que está em aberto, e alguns sugerem que talvez não haja um teste unificado para qualificar esses sistemas, um tipo de sucessor do Teste de Turing. Em vez disso, se trataria de muitos testes para observar sistematicamente os modelos LLM para buscar seus os pontos fortes e fracos.
Wortham destaca que o maior problema é a tendência que se tem em olhar as máquinas antropomorfizadas. Para ele, o problema está justamente em ficar imaginando que a razão por um sistema de inteligência artificial estar fazendo o que faz é por estar pensando como nós.
Fonte: Nature