Se você já se impressionou com ChatGPT e outros modelos LLM, vai gostar de saber sobre as especulações dos novos modelos de linguagem da inteligência artificial. Foram divulgadas pesquisas que ainda não foram revisadas por pares, mas que já estão gerando muitas expectativas!
Os atuais LLMs (Large Language Models) fizeram grandes avanços em relação à nossa interação com os sistemas de inteligência artificial, demonstrando habilidades surpreendentes das IAs para lidar com inputs comunicados claramente. Mas há um porém: eles tropeçam quando enfrentam tarefas que requerem uma compreensão mais ampla e contextual do mundo.
Se você quiser saber mais sobre os modelos LLM, clica aqui e veja o que podem fazer e algumas limitações.
Pesquisadores da UC Berkeley estão com uma novidade bem empolgante em relação a isso, o Dynalang, uma técnica de ponta que visa dar à inteligência artificial uma perspectiva mais ampla do mundo, algo além do que os LLMs têm hoje. Com o Dynalang não se trata apenas de ensinar a IA a fazer tarefas, é sobre fazê-la entender o clima, o cenário, o contexto – o pacote completo!
Os LLMs deram origem aos VLMs (Visual Language Models), que são capazes de mapear texto para dados visuais e vice-versa, e todos nós ficamos fascinados com isso! Eles já eram bons em comandos específicos do tipo “pegar a caixa azul”, e recentemente, foram adicionadas camadas de abstração, o que possibilita que esses modelos de VLM executem tarefas mais complexas como “pegue o brinquedo que representa um animal extinto”.
Superando os LLMs?
Não contentes com essas adições de camadas, a equipe da UC Berkeley fez mágica. Em vez de fazer seus modelos de inteligência artificial saltarem diretamente para tarefas, eles os incentivaram a primeiro jogar um “preveja o futuro” usando instruções de linguagem. Segundo os pesquisadores, a ideia é a seguinte: se prever a próxima palavra em uma frase ajuda um modelo de linguagem a aprender, então prever representações futuras deve dar aos agentes de inteligência artificial a possibilidade de um grande avanço em entender a linguagem e em como ela se relaciona com o mundo.
O aprendizado: O Dynalang primeiro imerge em um ambiente de textos e pistas visuais, prevendo como o mundo seria no próximo momento. Pense nele como uma criança aprendendo a falar e relacionar palavras com objetos. Trata-se de um modelo multimodal (isto é, capaz de interpretar e gerar informações de múltiplos tipos ou modalidades de dados, neste caso, dados visuais e de texto), de aprendizado autossupervisionado, que aprende de forma similar a nós, humanos, usando a linguagem para mapear as observações em seu ambiente.
A ação: Depois de absorver todas essas informações, Dynalang então descobre como agir em diferentes cenários usando aprendizado por reforço. Os pesquisadores programaram os algoritmos para ações que maximizam a recompensa conforme se aproximam do modelo de mundo aprendido. Não se trata de um modelo estático, mas de aprendizado contínuo, lidando com texto e imagens ao mesmo tempo, o que permite vantagem de compreensão e ação.
Ainda falta um pouco para essa evolução da inteligência artificial
É bom lembrar que esta pesquisa ainda não foi revisada por pares. Ou seja, ainda não foi oficialmente validada. Mas as descobertas já chamam muito a atenção, porque entre os autores do artigo estão figuras muito respeitadas no campo da pesquisa de inteligência artificial, incluindo Pieter Abeel, diretor do Berkeley Robot Learning Lab e codiretor do Berkeley AI Research Lab. Isso dá uma certa credibilidade ao conteúdo e incita a curiosidade dos entusiastas!
Os pesquisadores testaram rigorosamente a novidade em diferentes ambientes digitais, e o Dynalang mostrou que tinha habilidades para entender dicas sutis e conectar texto com o que observava, superando muitos sistemas similares do que conhecemos hoje nos sistemas LLM.
Embora o novo modelo esteja sendo olhado como uma grande promessa, os responsáveis pelas pesquisas reconhecem que ainda tem muito o que melhorar, mas a capacidade do Dynalang de aprender em seu pré-treinamento a partir só de texto é um grande diferencial para sua eficácia geral. O modelo está se mostrando um divisor de águas, mas ainda há um bom caminho a percorrer antes de o vermos em cenários do mundo real.
As coisas no mundo da inteligência artificial são muito dinâmicas e quando os modelos LLM foram apresentados ao público amplo fez um tremendo barulho, imagina se chegar uma coisa assim, que permite aprendizado de contextos mais amplos!
Não sabemos em quanto tempo isso vai se tornar uma realidade, mas não podemos negar que essas novas pesquisas nos deixam curiosos e cheio de expectativas para começar a usar!
Fonte: BDTechTalks