Um sistema que superou os maiores jogadores de Go do mundo é sempre lembrado na discussão sobre a possibilidade de uma inteligência artificial super-humana estar cada vez mais em voga. No entanto, um estudo recente trouxe à tona fragilidades em um dos sistemas de IA mais bem-sucedidos até hoje: um bot que joga o jogo de tabuleiro Go, capaz de derrotar os melhores jogadores humanos do mundo. Essas descobertas lançam dúvidas sobre a robustez desses sistemas e levantam questões sobre se IAs mais gerais também podem sofrer de vulnerabilidades que comprometem sua segurança e confiabilidade, bem como sua alegada superioridade.
A pesquisa focou em KataGo, um dos principais bots de do jogo Go de código aberto, conhecido por superar jogadores humanos de elite. Os pesquisadores descobriram que, apesar de sua habilidade notável, KataGo pode ser derrotado por bots adversários, que exploram fraquezas específicas do sistema. Este fato sugere que a superioridade de tais IAs pode ser frágil e altamente dependente do contexto.
Huan Zhang, cientista da computação da Universidade de Illinois Urbana-Champaign, observa que essa descoberta coloca um ponto de interrogação significativo sobre como alcançar o objetivo ambicioso de construir agentes de IA robustos e confiáveis. Stephen Casper, do Instituto de Tecnologia de Massachusetts (MIT), acrescenta que a pesquisa fornece algumas das evidências mais fortes até hoje de que é difícil fazer com que modelos avançados se comportem de maneira desejada de forma robusta.
Para testar as capacidades do sistema, o estudo utilizou ataques adversários – inputs projetados para levar os sistemas de IA a cometer erros. Por exemplo, certos prompts podem ‘liberar’ chatbots, fazendo-os fornecer informações prejudiciais que foram treinados para suprimir. No contexto do Go, os pesquisadores treinaram bots adversários para derrotar KataGo, identificando vulnerabilidades que permitiram que bots relativamente fracos vencessem consistentemente o sistema.
Será que nossas redes neurais são iguais a de máquinas? Clique aqui para ler o artigo!
Estratégias de defesa para testar o sistema de Go
Os pesquisadores, liderados por Adam Gleave, da organização de pesquisa FAR AI, em Berkeley, Califórnia, testaram três estratégias para defender os sistemas de Go contra tais ataques:
1.Aprendizado a partir de exemplos de ataques:
– KataGo foi treinado com exemplos de posições de tabuleiro envolvidas nos ataques e jogou contra si mesmo para aprender a defender essas posições.
– Apesar disso, um bot adversário conseguiu vencer a versão atualizada de KataGo 91% das vezes.
2. Treinamento iterativo:
– Uma versão de KataGo foi treinada contra bots adversários, depois os atacantes foram treinados contra a versão atualizada de KataGo, e assim por diante, por nove rodadas.
– Os adversários continuaram encontrando brechas, com o último vencendo KataGo 81% das vezes.
3. Criação de um novo sistema de IA com Vision Transformer (ViT):
– Suspeitando que as redes neurais convolucionais (CNNs) poderiam focar excessivamente em detalhes locais e perder padrões globais, os pesquisadores construíram um novo jogador de Go usando uma rede neural alternativa chamada Vision Transformer (ViT).
– O bot adversário encontrou uma nova forma de ataque que lhe permitiu vencer 78% das vezes contra o sistema ViT.
Embora os bots adversários conseguissem vencer os sistemas de IA de Go, eles não eram estrategistas completos e bem arredondados. Humanos podiam derrotá-los com relativa facilidade, usando as mesmas táticas descobertas pelos adversários.
Superinteligência: Um Conceito em Debate
Dada a capacidade dos humanos de aprender e usar as táticas dos bots adversários para derrotar sistemas de IA especializados, surge a questão: ainda faz sentido chamar esses sistemas de super-humanos?
“IA forte” refere-se a sistemas que possuem capacidades cognitivas amplas e gerais, semelhantes às dos seres humanos, sendo capazes de entender, aprender e aplicar conhecimentos de maneira flexível e adaptável. Atualmente, a IA forte é um conceito teórico e não foi totalmente realizada, ao contrário da “IA fraca” ou “estreita”, que é projetada para realizar tarefas específicas, como jogar xadrez ou operar assistentes virtuais.
Há uma sugestão de que chamar as IAs de IAs fortes no Go é um exagero, pois esses sistemas são altamente especializados e não possuem a adaptabilidade e generalidade da verdadeira IA forte. David Wu, que desenvolveu inicialmente KataGo, são “super-humanas na média”, mas não nos piores cenários. Gleave prefere o termo “tipicamente super-humano”.
As conclusões deste estudo têm implicações amplas para os sistemas de IA, incluindo os grandes modelos de linguagem que sustentam chatbots como o ChatGPT. Gleave aponta que essas vulnerabilidades serão difíceis de eliminar, e se não conseguimos resolver o problema em um domínio simples como o Go, parece improvável que consigamos corrigir problemas semelhantes no curto prazo como as ‘liberações’ em chatbots, que são as situações em que sistemas de IA, são manipulados para fornecer respostas ou informações que normalmente deveriam ser suprimidas
Huan Zhang adiciona que, embora os resultados possam sugerir superficialmente que os humanos manterão vantagens cognitivas importantes sobre a IA por algum tempo, a lição mais crucial é que ainda não entendemos completamente os sistemas de inteligência artificial que construímos hoje. Essa falta de compreensão pode ser um obstáculo significativo para o desenvolvimento de IAs verdadeiramente confiáveis e seguras.
A possibilidade de construir uma inteligência artificial verdadeiramente super-humana e confiável enfrenta desafios substanciais. As vulnerabilidades descobertas a partir do KataGo, destacam a complexidade dessa tarefa e sugerem que há um longo caminho pela frente antes de podermos confiar plenamente em IAs para superar consistentemente as capacidades humanas em todos os cenários.
Fonte: Nature