A evolução das habilidades emergentes dos modelos LLMs (linguagem de grande escala) tem sido um tema de intenso debate e fascínio no mundo da inteligência artificial. Há dois anos, em um projeto ambicioso denominado “Beyond the Imitation Game” (BIG-bench), 450 pesquisadores colocaram esses sistemas sob os holofotes, compilando 204 tarefas projetadas para testar os limites da tecnologia presentes em chatbots como ChatGPT e similares podem fazer.
À medida que os modelos cresciam, algo intrigante foi observado: enquanto a maioria das tarefas mostrava uma melhoria previsível na performance com o aumento do tamanho do modelo, algumas habilidades pareciam surgir do nada, marcando um salto abrupto na capacidade desses sistemas. Mas um estudo recente da Universidade de Stanford propõe uma visão alternativa que pode mudar a forma como entendemos esse fenômeno, contrariando a possibilidade de imprevisibilidade colocada em 2022.
A pesquisa sugere que essas habilidades “emergentes”, anteriormente vistas como súbitas e imprevisíveis, na verdade se desenvolvem de maneira gradual e previsível, e que a chave para essa nova compreensão está na maneira como se mede o desempenho dos LLMs. O estudo indica que o que antes era considerado um salto repentino nas capacidades dos modelos pode ser mais bem explicado por nuances nas ferramentas de medição, desafiando a noção de que os LLMs de repente “aprendem” novas habilidades, sugerindo, em vez disso, que essas habilidades se desenvolvem gradativamente à medida que os modelos se tornam mais complexos.
A importância do tamanho dos modelos em seu desempenho é incontestável. O crescimento exponencial no número de parâmetros — que são, em essência, as conexões entre palavras que o modelo pode fazer — tem permitido uma melhoria notável nas capacidades dos LLMs. O salto de 1,5 bilhão de parâmetros no GPT-2 para 1,75 trilhão no GPT-4 aponta para o rápido avanço tecnológico e de como esse avanço potencializa os modelos para executar tarefas cada vez mais complexas.
Um exemplo marcante dessa discussão envolve a capacidade de resolver adições de três dígitos. Pesquisas anteriores indicavam que modelos como o GPT-3 falhavam nessas tarefas até atingirem um certo limiar de parâmetros. Nesse limite, sua habilidade para executar cálculos matemáticos melhorava repentinamente, quase como se um interruptor fosse acionado. No entanto, a equipe de Stanford argumenta que essa percepção de capacidades emergentes pode ser resultado de uma métrica binária de avaliação, de acerto ou erro total, sem reconhecer tentativas quase corretas.
Ainda tem dúvida sobre o que é e as possibilidades dos modelos LLM? Clica aqui e acesse a seção do blog dedicada ao assunto!
As controvérsias na análise das habilidades dos LLMs
No lugar da avaliação binária, ao aplicar uma métrica que concede crédito parcial por respostas quase certas, os pesquisadores demonstraram que a habilidade de adição melhora gradualmente com o aumento dos parâmetros, sugerindo uma evolução previsível em vez de um salto súbito. Esse insight sugere que as habilidades emergentes dos LLMs, conforme previamente entendida, podem ser mais como uma “miragem” do que uma realidade incontestável, moldada só pela forma como escolhe-se medir e interpretar o desempenho dessas entidades digitais.
Ainda assim, outros cientistas argumentam que a pesquisa de Stanford não elimina completamente a noção de habilidades emergentes, apontando que ainda há incertezas sobre quando e quais métricas revelarão melhorias abruptas, mantendo viva a discussão sobre a previsibilidade e a natureza das habilidades dos LLMs. Também há aqueles que defendem que os relatórios anteriores sobre habilidades emergentes eram consistentes para algumas tarefas, como as aritméticas, onde, para estes cientistas, a precisão absoluta é o que realmente importa, e qualquer melhoria direcional é significativa.
A conversa em torno da emergência de habilidades nos LLMs toca diretamente os esforços contínuos para prever como os modelos de IA se comportarão à medida que forem evoluindo, uma questão crítica para a segurança e o potencial de risco da IA. Com essas tecnologias se tornando cada vez mais abrangentes e aplicáveis, a importância de construir uma ciência de previsão para esses sistemas não pode ser subestimada. Como podemos garantir que não seremos pegos de surpresa pela próxima geração de modelos?
À medida que avançamos, é provável que as definições de emergência e as metodologias de medição continuem a evoluir. O que é claro, no entanto, é que a compreensão dessas habilidades inesperadas nos LLMs — e a forma como as interpretam — é fundamental para desvendar o potencial da inteligência artificial.
Fonte: Quanta Magazine