Uma ameaça aos LLMs: Entenda o que são os ataques “jailbreaks”

Com a evolução dos modelos LLM (Large Language Model), novos problemas aparecem no mundo da inteligência artificial. Uma nova pesquisa aponta que ataques adversários chamados “jailbreaks” podem driblar a segurança desses modelos.

Antes de começar, se você quiser entender mais sobre LLMs, clica aqui!

Um grupo de cientistas revelou um novo ataque adversário que ultrapassa os recursos de segurança dos LLMs. Se você está se perguntando, “O que diabos é um ataque adversário?”, pense nisso como uma forma astuta de enganar a inteligência artificial, fazendo com que ela se comporte de maneira inadequada.

Estes ataques não são exatamente novidade. No passado, eram vistos principalmente como truques divertidos – maneiras inteligentes pelas quais usuários com conhecimento tecnológico brincavam com modelos de linguagem para fazê-los dizer coisas bobas ou inesperadas. Mas este novo método não é apenas diversão. Foi apelidado de “jailbreaking” e seu superpoder é que é tanto “universal” quanto “transferível”. Traduzindo em miúdos: Pode causar estragos em uma ampla variedade de tarefas e saltar de um modelo para outro, atacando até sistemas de código fechado como o ChatGPT e Bard.

É crucial saber que ataques adversários de aprendizado de máquina são diferentes das falhas de software clássicas e vulnerabilidades às quais estamos acostumados. Os “jailbreaks” tradicionais em LLMs eram uma mistura de arte e ciência, exigindo uma boa dose de criatividade humana, não eram facilmente escaláveis e não tinham a aplicabilidade ampla necessária para serem uma ameaça real.

Mas esse novo modelo tem um diferencial realmente preocupante. Essa nova técnica não mexe apenas no conteúdo principal, em vez disso, acrescenta um “sufixo adversário” que, quando adicionado a uma variedade de consultas, induz o LLM a divulgar conteúdo questionável. Imagine como adicionar um ingrediente secreto a uma receita que muda completamente o sabor do prato.

E o grande truque é como esse artifício salta de modelo para modelo, inclusive para modelos caixa-preta. Por exemplo, os cientistas treinaram essa técnica de ataque adversário em um modelo de código aberto chamado Vicuna LLM e conseguiram a mesma técnica para desbloquear outros LLMs de código aberto, como LLaMA-2-Chat, e até os modelos comerciais como ChatGPT e o Bard.

Um pouco de clareza sobre como funciona “jailbreak”

Antes de ir adiante, vamos entender como esses “jailbreaks” realmente funcionam. Imagine que é como um filme de espionagem onde os vilões alteram sutilmente imagens ou áudio para enganar sistemas de reconhecimento facial ou de voz. Isso que é, basicamente, um ataque adversário. Para os LLMs, essa ação envolve ajustar o texto de entrada de uma forma que altere o comportamento do modelo.

Com modelos visuais, é como alterar discretamente alguns pixels em uma imagem para que o que era claramente uma foto de um panda agora seja classificado como uma torradeira pela inteligência artificial. Para modelos de texto, é um pouco mais complicado, pois as palavras são percebidas de uma maneira mais objetiva. Não se pode alterar sutilmente uma letra sem que seja perceptível.

Mas este novo método encontrou uma saída. Em vez de ajustar o texto principal, eles simplesmente adicionam um sufixo que empurra o modelo na direção desejada (e que não tem nada a ver com o que esperado). Ao adicionar um sufixo específico que induz o modelo a começar a resposta com uma sequência afirmativa, é provável que o modelo complete com o restante da informação.

Os cientistas apontam que a ideia por trás dessa estratégia é que, se o modelo de linguagem, por causa da inserção desse sufixo, estiver num ‘modo’ onde a resposta indesejada pelo usuário (mas desejada pelo atacante) seja entendida como a resposta mais plausível, ao invés de simplesmente negar a solicitação, o modelo tende a concluir justamente com o comportamento indesejável em questão.

Em suma, o objetivo do ataque é fazer com que o LLM gere uma determinada gama de tokens que possa cumprir o objetivo do atacante.

Os resultados dos ataques aos modelos LLM

Vamos a alguns números. Os pesquisadores testaram sua técnica de ataque com algumas avaliações rigorosas. E… Bem, ela realmente funcionou. Para gerar sequências prejudiciais, o ataque teve uma impressionante taxa de sucesso de 88% no Vicuna-7B. Ainda mais surpreendente, quando se tratava de induzir comportamentos prejudiciais, ele marcou um perfeito 100% no mesmo modelo!

E lembra daquela coisa toda “transferível”? Esses astutos ataques adversários não ficaram apenas no seu território de origem. Ataques projetados para um modelo, como Vicuna-7B, saltaram para modelos maiores e até para famílias de modelos completamente diferentes com facilidade, com mesma performance.

E por que isso importa quando falamos de inteligência artificial?

Importa. E muito. E não é só porque podemos identificar uma resposta estranha e saber que a inteligência artificial errou. Considere o seguinte: os LLMs estão evoluindo rapidamente de simples chatbots para se tornarem uma parte integral de sistemas complexos. Novos frameworks estão transformando esses modelos em agentes que executam ações detalhadas com base em instruções de alto nível.

Imagine um cenário onde um LLM se integra com outras aplicações, e sua saída direciona o fluxo de trabalho inteiro. Se alguém inserir um sufixo adversário e enganar o modelo, o efeito cascata pode ser massivo, levando a danos enormes!

E não vamos esquecer: esses ataques universais não são seletivos. Eles podem mirar em uma gama de modelos, desde os de código aberto feitos em casa até os titãs comerciais de gigantes da tecnologia. Com muitas organizações conectando-se a modelos populares como o GPT-4, a paisagem de ameaças torna-se ainda mais expansiva.

Qual a situação para o futuro então?

No fascinante mundo da inteligência artificial, essa nova descoberta aponta para um desafio crítico à nossa frente. Há um tipo de jogo de gato e rato se desenrolando entre ataques adversários e defesas que vão ter que erigir uma poderosa barreira.

Embora muitos provedores de LLM tenham atualizado rapidamente seus modelos para se defender deste ataque específico, não há garantia de que não surgirá uma nova variante ainda mais astuta.

A principal conclusão? À medida que avançamos para o futuro dos LLMs, está claro que precisamos de mais do que apenas soluções temporárias. Precisamos de estratégias robustas e abrangentes para garantir que essas ferramentas incríveis avancem no mesmo mesmo passo que avançam as medidas de segurança.

Usuários dessa tecnologia precisam estar sempre por dentro do que anda acontecendo no mundo da inteligência artificial, principalmente ao lidar com dados sensíveis, implantar esses sistemas como parte integrante do fluxo de uma empresa, entre muitos outros cuidados. Por ser um cenário muito novo, as coisas consideradas boas vão evoluindo, mas também os caminhos obscuros vão se revelando. É preciso atenção sempre.

Fonte: BD Tech Talks – artigo completo disponível