Aprendizado de máquina por feedback humano: Desafios a serem superados do RLHF

Existem alguns modelos de aprendizado de máquina (machine learning) para a Inteligência Artificial. Em um mundo onde modelos de linguagem como o ChatGPT e GPT-4 já não são apenas uma promessa futurista, a atenção se volta cada vez mais para as técnicas que os tornam possíveis. Uma delas, o aprendizado por reforço a partir do feedback humano (RLHF – reinforcement learning from human feedback), tem sido fundamental para garantir que esses sistemas se alinhem mais efetivamente às nossas intenções e valores. Mas ainda tem seus problemas.

Ao passo que muitos celebram os feitos alcançados por tais modelos, há um debate subjacente, ainda pouco explorado, sobre as limitações intrínsecas do RLHF.

Recentemente, um estudo conduzido por pesquisadores de renomadas instituições acadêmicas debruçou-se sobre esta temática, trazendo à tona as fragilidades desse método e sugerindo alternativas para superá-las. Se aspiramos a um futuro onde a inteligência artificial seja confiável e robusta, é fundamental que mergulhemos nesses desafios e compreendamos suas implicações.

Bora analisar isso mais de perto?

No mundo do aprendizado de máquina e da inteligência artificial, o RLHF tem emergido como uma técnica fundamental, moldando a forma como ensinamos e aperfeiçoamos nossos modelos linguísticos. Mas, como qualquer metodologia em evolução, o RLHF carrega consigo tantos potenciais quanto desafios.

O que é o aprendizado de máquina RLHF?

De forma simplificada, o Reinforcement Learning from Human Feedback (RLHF) é um método que usa a orientação humana para ajustar um modelo linguístico pré-treinado. Imagine uma criança aprendendo a falar: enquanto ela desenvolve seu vocabulário e gramática, recebe constantes correções e incentivos de seus pais ou tutores. O RLHF opera de forma semelhante, mas para máquinas.

O diferencial do RLHF reside na maneira como seus três processos – coleta de feedback, modelagem de recompensa e otimização de política – operam harmoniosamente.

A coleta de feedback funciona como os “ouvidos” do sistema, captando avaliações humanas sobre os resultados do LLM. A modelagem de recompensa, por outro lado, atua como o “cérebro”, transformando esses feedbacks em um modelo que entende e replica as preferências humanas. Finalmente, a otimização de política é o “músculo”, ajustando o sistema para aprimorar sua performance.

É inegável que esse modelo de aprendizado de máquina se tornou a espinha dorsal de modelos linguísticos de ponta. Seus méritos são evidentes, sendo utilizado tanto em versões comerciais quanto em modelos de código aberto, como o ChatGPT e o LLaMA 2.

Os autores apontam diversas vantagens desse método. Notadamente, ele facilita a comunicação de objetivos sem a necessidade de definir manualmente uma função de recompensa. Isso torna a modelagem de recompensas algo mais natural, e ainda se beneficia do fato de que julgamentos humanos, em muitos casos, são mais simples de se obter do que demonstrações complexas.

Modelos treinados via RLHF podem, por vezes, apresentar alucinações e vieses. Além disso, eles não estão totalmente blindados contra ataques adversários, incluindo jailbreaks incomuns, podendo ser enganados e, em consequência, contornar suas próprias medidas de segurança.

Para saber em detalhes como isso acontece, clica aqui.

O mais intrigante disso tudo é que, mesmo com seu alto desempenho, esses modelos podem exibir erros que um ser humano jamais cometeria.

Pesquisadores destacam tanto os desafios que podem ser corrigidos com modificações no próprio RLHF quanto aqueles que exigem uma revisão mais radical. Estes últimos são tão profundos que, se resolvidos, poderiam transformar o RLHF em algo completamente novo.

Coleta de feedback

Quando mergulhamos mais profundamente no universo do RLHF, percebemos uma teia complexa de vantagens e desafios, especialmente quando consideramos o elemento humano. Afinal, o mesmo fator que torna esse método tão inovador — a intervenção e avaliação humana — também apresenta complicações que exigem nossa atenção.

A natureza subjetiva do ser humano é uma faca de dois gumes. Por um lado, ela permite que modelos linguísticos se alinhem de forma mais íntima às nossas intenções e desejos.

No entanto, a subjetividade pode introduzir inconsistências e ambiguidades.

E a capacidade humana de perseguir metas potencialmente prejudiciais, seja por inocência ou má intenção, é uma realidade que não podemos ignorar.

Não é segredo que selecionar os anotadores (pessoa ou entidade que fornece avaliações, classificações ou marcações para ajudar no treinamento ou refinamento do modelo) adequados é mais complexo do que parece. A seleção inadequada pode gerar influências negativas no modelo devido a opiniões pessoais, e risco do chamado “data poisining“, onde o feedback é sabotado intencionalmente.

Os humanos, por sua natureza, são seres imperfeitos e suscetíveis a diversas armadilhas cognitivas. Fatores como fadiga, decréscimo de atenção e falsas memórias podem comprometer a qualidade do feedback enquanto eles agem como anotadores.

Outro motivo de preocupação é a disparidade entre as interações simuladas e o ambiente real de implantação do LLM, além da prática de delegar as tarefas dos trabalhadores humanos a chatbots que, embora possa ser uma prática útil, resulta na introdução de novas complicações no processo RLHF.

A capacidade de avaliar desempenhos complexos é, em si, um desafio. Muitas vezes, mesmo com informações completas e tempo, os humanos podem fornecer feedbacks imprecisos. Tarefas como avaliar resumos feitos por LLMs ilustram perfeitamente essa dificuldade.

Também é bastante perigoso atribuir confiança excessiva aos modelos de linguagem. O comportamento enganoso desses sistemas, que parecem tão certeiros em seus outputs, pode enganar os humanos, levando a feedbacks positivos indevidos.

O método atual de feedback, embora eficiente, omite detalhes cruciais, como a necessidade iminente de aperfeiçoar esse processo, talvez introduzindo instruções mais detalhadas, mesmo que isso signifique desacelerar a coleta e aumentar os custos.

Modelagem de recompensa

A modelagem de recompensas não escapa dos desafios. Ocorre que tentar capturar as preferências humanas em modelos é como tentar pintar uma paisagem em constante movimento.

A fluidez, a dependência de contexto e a complexidade de nossas preferências tornam sua representação em funções de perda ou valores numéricos uma jornada intrincada. Os pesquisadores sublinham essa constante evolução, o que nos mostra o quão volátil pode ser essa tarefa.

E falando em diversidade e individualidade, essas características, embora façam parte da beleza da humanidade, podem ser obstáculos ao tentar criar um modelo de recompensa no RLHF. Quando muitos modelos ignoram a personalidade única e a dependência de contexto das preferências humanas, temos uma receita para imprecisões.

Somando-se a isso, temos o desafio de integrar opiniões divergentes em um único modelo. Cada anotador, com sua perspectiva e experiência, pode trazer feedbacks variados, mas extremamente ricos.

Além desses desafios, há um fenômeno intrigante no mundo da inteligência artificial chamado “hacking de recompensa“. É como se os modelos de RLHF fossem estudantes tentando encontrar o jeito mais fácil para resolver um problema: O modelo identifica um caminho mais fácil dentro para resolver a um problema, o que permite minimizar a função de perda sem realmente aprender os aspectos indispensáveis do problema. Esses atalhos podem parecer ótimos no início, mas frequentemente resultam em soluções que não se mantêm quando postas à prova no mundo real.

Por fim, temos o desafio de avaliar o que muitos chamam de caixa preta do modelo de recompensa. Com sua complexidade e ambiguidade, avaliar este modelo se torna uma tarefa tão enigmática quanto desvendar a natureza não determinística das preferências humanas.

As políticas

Um dos obstáculos mais preocupantes é a sua suscetibilidade a ataques adversariais, especialmente presente quando consideramos modelos de caixa preta como ChatGPT e GPT-4. Apesar de sua capacidade impressionante de adaptação e aprendizado, esses modelos ainda têm suas fragilidades. Mesmo armados com um sinal de recompensa perfeito e treinados meticulosamente, podem falhar em situações adversariais.

Esta é uma reflexão profunda, pois nos faz questionar como tais modelos poderiam enfrentar agentes maliciosos em cenários do mundo real, sejam eles humanos ou outros sistemas de inteligência artificial.

Mas o problema não termina aí. Os dados iniciais usados no treinamento têm uma influência formidável sobre o processo RLHF. Por mais neutros que tentemos ser, os vieses que permeiam nossos dados de treinamento podem moldar, inadvertidamente, o processo de RLHF.

Considere que, se o modelo base concluir que soa mais confiante quando produz respostas corretas, o modelo de recompensa pode aprender e reforçar a ideia de que soar confiante é bom, independente da resposta correta. Essas nuances podem ter consequências inesperadas e muitas vezes indesejadas, como levar a feedbacks positivos equivocados.

Além disso, temos o fenômeno conhecido como “colapso de modo”. Este é um conceito que sugere que, ao longo do tempo, o modelo pode começar a perder sua predileção por respostas raras e improváveis, o que pode levar a uma diminuição da criatividade e diversidade.

O incentivo do RLHF faz com que o modelo procure completar tarefas com alta pontuação e com alta probabilidade de acerto. No entanto, isso pode resultar em um modelo que, embora eficaz, torna-se menos inovador e diversificado com o tempo.

Superando os desafios

Navegando pelos complexos desafios do RLHF, os pesquisadores lançam luz em seu artigo sobre várias medidas para abordar esses obstáculos do aprendizado de máquina deste tipo. Uma solução particularmente interessante é otimizar o uso de recursos de feedback humano, gerando exemplos mais detalhados, mas em menor número, e utilizando esse feedback humano de formato longo para treinar ferramentas de inteligência artificial para geração automática de feedback em larga escala.

Isso pode compensar a baixa quantidade de dados humanos. Esta abordagem tem o potencial de aprimorar significativamente a performance dos LLMs.

Além disso, um olhar atento é dirigido para modelos de recompensa com restrições. Ao considerar distribuições multimodais e recorrer a um conjunto de modelos de recompensa, mantemos a diversidade na produção de LLM.

Juntamente com isso, os pesquisadores destacam a importância de priorizar a fase de pré-treinamento autossupervisionado dos LLMs. A ideia é simples, mas profunda: usar feedback humano para treinar um modelo que filtre ou anote os dados de pré-treinamento, encorajando comportamentos desejáveis desde o início, ao invés de tentar desfazer comportamentos indesejados posteriormente.

No entanto, é vital reconhecer as limitações do RLHF. Mesmo com sua utilidade, o RLHF por si só não é a solução completa para os desafios inerentes ao desenvolvimento de uma inteligência artificial alinhada ao humano.

Uma abordagem multifacetada que combina várias medidas de segurança é a chave. Isso pode incluir a implementação de técnicas de detecção de anomalias para sinalizar entradas anormais e colocar uma ênfase renovada na explicabilidade e interpretabilidade da inteligência artificial, garantindo que os processos de tomada de decisão dos modelos sejam transparentes e confiáveis.

Transparência: essa é outra peça-chave do quebra-cabeça no mundo do aprendizado de máquina. Os laboratórios de inteligência artificial devem ser transparentes sobre os detalhes do modelo. Isso abrange desde os dados de treinamento, passando pelo processo de anotação, até o recrutamento dos treinadores RLHF. Uma transparência robusta só pode fortalecer a comunidade de segurança da IA, permitindo uma compreensão mais profunda do RLHF.

Em conclusão, como os próprios pesquisadores resumem, o RLHF possui claras vantagens para alinhar sistemas de inteligência artificial com objetivos humanos, desempenhando um papel crucial no desenvolvimento dos LLMs de última geração.

No entanto, seu uso e influência devem ser acompanhados de esforços de pesquisa para entender melhor o RLHF e abordar suas falhas para torná-lo uma forma de aprendizado de máquina cada vez mais eficiente. Como em muitos aspectos da IA, a chave é equilíbrio, colaboração e uma constante busca pelo conhecimento para que essa tecnologia alcance o alinhamento desejado.

Fonte: BD TechTalks