O famoso programa de Inteligência Artificial (AI) conhecido como ChatGPT, que cativou o público com suas habilidades de conversação human-like, está enfrentando uma situação preocupante. O lançamento da versão mais recente gerou grande entusiasmo e até mesmo impulsionou o aumento no valor de algumas criptomoedas, mas de acordo com um novo estudo realizado por pesquisadores de Stanford e da UC Berkeley, o desempenho do ChatGPT parece estar em declínio.
Os especialistas analisaram meticulosamente diferentes versões do ChatGPT, desenvolvendo benchmarks rigorosos para avaliar a competência do modelo em tarefas de matemática, codificação e raciocínio visual. Infelizmente, os resultados mostraram uma notável queda na performance entre as versões. Em um desafio matemático para determinar números primos, o ChatGPT apresentou uma precisão impressionante de 97,6%, resolvendo 488 das 500 questões corretamente em março. Contudo, em junho, esse número caiu drasticamente para apenas 2,4%, acertando apenas 12 das questões.
O declínio foi ainda mais pronunciado nas habilidades de codificação de software do chatbot. O percentual de gerações de respostas diretamente executáveis caiu de 52% em março para meros 10% em junho, como constatou a pesquisa. Vale ressaltar que esses resultados foram obtidos utilizando a versão pura dos modelos, ou seja, não foram utilizados plugins de interpretação de código.
Para avaliar o raciocínio, os pesquisadores utilizaram o conjunto de dados Abstract Reasoning Corpus (ARC). Embora o declínio não tenha sido tão drástico quanto na matemática, os especialistas ainda encontraram erros em consultas sobre as quais o ChatGPT havia respondido corretamente em março.
Os pesquisadores levantam a hipótese de que esses problemas podem ser um efeito colateral das alterações feitas pela OpenAI, a empresa responsável pela tecnologia. Uma das causas possíveis é a implementação de mudanças para evitar que o ChatGPT responda a perguntas perigosas, visando garantir maior segurança. No entanto, isso pode ter prejudicado a utilidade do sistema em outras tarefas, já que o modelo agora tende a oferecer respostas detalhadas e indiretas, ao invés de respostas claras e precisas.

Especialistas da área, como Santiago Valderrama e Dr. JM Fan, também expressaram suas preocupações nas redes sociais. Valderrama levantou a possibilidade de que a OpenAI tenha optado por utilizar uma combinação de modelos menores e mais especializados, visando reduzir custos e acelerar as respostas aos usuários, mas comprometendo a competência geral do ChatGPT.
Outro ponto de preocupação é que as mudanças realizadas podem ter “emburrecido” o modelo, bem como a falta de feedback amplo da comunidade pode ter contribuído para o declínio.
Enquanto os especialistas defendem testes mais abrangentes para compreender completamente os motivos do declínio, os usuários do ChatGPT podem precisar moderar suas expectativas. Parece que a máquina brilhante e geradora rápida de ideias que todos conheceram anteriormente está passando por um período de queda na qualidade. Talvez, assim como as inteligências humanas, a deterioração cognitiva também seja inevitável para as inteligências artificiais. Por enquanto, a busca por soluções, como modelos de código aberto para permitir a depuração da comunidade, parece ser uma estratégia válida para melhorar a performance do ChatGPT.