O ChatGPT está ficando burro?

ChatGPT é assunto em todo lugar. E quando se trata de modelos de inteligência artificial, parece que eles estão sempre melhorando. Mais dados, mais treinamento, consequentemente, melhores resultados – ou foi o que pensávamos. Bem, parece que as coisas não são tão simples.

Pegue como exemplo o GPT-4, o mais recente modelo de linguagem da OpenAI, que é usado no ChatGPT. Em março deste ano ele foi testado para identificação de números primos vs. compostos e teve 84% de precisão, mas em junho teve 51% de precisão nas mesmas questões

Bem, esse enigma chamou a atenção de cientistas da computação de Stanford e da UC Berkeley. Eles colocaram o GPT-4 e seu irmão mais velho, o GPT-3.5, à prova, não uma, mas duas vezes. Eles realizaram testes em março e junho e descobriram algo bastante curioso: Os modelos de inteligência artificial estavam mudando – e não apenas do jeito que esperaríamos.

Algumas mudanças faziam sentido. Por exemplo, o GPT-4 estava se tornando um pouco mais cauteloso, filtrando mais perguntas e dando menos respostas potencialmente ofensivas. Mas ele também desenvolveu alguns caprichos. Uma das mudanças mais notáveis foi que ele se tornou menos falante sobre suas respostas, muitas vezes encurtando suas explicações.

Para alguns, isso fez com que o GPT-4 parecesse “mais burro”, mas James Zou, de Stanford, argumenta que isso é uma simplificação exagerada. Embora seja verdade que o GPT-4 não estava se saindo tão bem no teste de números primos como antes, isso não significa que estava esquecendo suas tabuadas.

Nesse estudo baseado em avaliação comparativa entre GPT-4 e GPT-3.5, em março e em junho, houveram mais alguns insights interessantes:

A queda na precisão de identificação de números primos vs. compostos é parcialmente explicado por uma queda na disposição do GPT-4 em seguir o encadeamento de pensamento.
Curiosamente, o GPT-3.5 foi muito melhor em junho do que em março na mesma tarefa de identificar números primos.
O GPT-4 tornou-se menos disposto a responder a perguntas sensíveis e perguntas de pesquisas de opinião em junho do que em março.
O GPT-4 teve um melhor desempenho em perguntas de várias etapas em junho do que em março, enquanto o desempenho do GPT-3.5 caiu nesta tarefa.
Tanto o GPT-4 quanto o GPT-3.5 cometeram mais erros de formatação na geração de código em junho do que em março.

E se você quiser acompanhar a evolução no universo da inteligência artifcial, é bem importante que você conheça alguns termos. Clica aqui para ver 10 deles! Se achar que faltou algo, ou quiser saber sobre alguma coisa que não estiver ali, conta pra gente!

Alinhe suas expectativas com o ChatGPT

Veja, esse tipo de inteligência artificial, como o do ChatGPT, é mais como um papagaio bem treinado (muito bem treinado, e até meio criativo…) do que um ser humano pensante. Esses sistemas aprendem com os dados que recebem e simplesmente imitam os padrões que vêem, mas na verdade não entendem o que estão fazendo. Então, mudanças nas respostas do GPT-4 poderiam ser mais sobre os dados que o estão abastecendo do que qualquer mudança real em sua “inteligência”.

Aqui é onde as coisas ficam um pouco mais interessantes. Duas coisas moldam o comportamento de uma inteligência artificial: seus parâmetros, que são como seu manual de instruções, e os dados de treinamento, que são um pouco como seu currículo escolar.

Os desenvolvedores “refinam” o modelo de inteligência artificial ajustando esses parâmetros e introduzindo novos dados para melhorar seu desempenho. Mas é um equilíbrio delicado. Imagine tentar melhorar uma receita adicionando mais temperos, e é aí então o bolo acaba não tendo nada do gosto que você pretendia!

A OpenAI está constantemente tentando melhorar seus modelos de inteligência artificial, com o objetivo de torná-los tão seguros e confiáveis quanto possível. Mas mesmo quando as melhores intenções estão lá, ajustar um aspecto de uma inteligência artificial pode influenciar outro de forma imprevisível, e aí reside o desafio. E é por isso que o ChatGPT parece estar ficando mais burro.

Apesar do mistério do desempenho do GPT-4 nos números primos, precisamos lembrar que não se trata tanto da inteligência artificial ficar “melhor” ou “pior”. É mais sobre como essa tecnologia está evoluindo e se adaptando com base nos dados que lhe são dados, e também nos ajustes feitos em seus parâmetros. E quanto a nós, os usuários? Bem, precisamos acompanhar essas mudanças e continuar aprendendo como obter o melhor desses sistemas.

A verdade é que por mais surpreendentes que possam ser os resultados da inteligência artificial, e o ChatGPT realmente foi algo que mexeu com o mundo todo, é preciso lembrar que esses sistemas são só ferramentas e que o ser humano é indispensável para garantir os melhores resultados. Na última linha, o repertório, a capacidade de expressar ideias, a criatividade e outras habilidades dos seres humanos é o que mudam o jogo para melhores respostas do GPT-4 ou outra inteligência artificial ou, mais precisamente, qualquer outra ferramenta!

A gente até selecionou 20 prompts matadores para que você possa usar o ChatGPT da melhor maneira. Clica aqui e começa a usar, você vai ver que os resultados podem ser irados!

ChatGPT ou qualquer outro software de IA estão aí para facilitar a nossa vida, mas dá pra ver que confiar 100% nas máquinas é sempre meio arriscado!

Fonte: Scientific American | artigo completo