Pesquisa mostra que chatbots estão errados em 60% do tempo

Uma pesquisa da Columbia Journalism Review (CJR), revista da faculdade de jornalismo de Columbia, Estados Unidos, mostra que os chatbots de IAs generativas erram 60% das buscas por citações de notícias — e com confiança. Na pesquisa, trechos de notícias de diferentes jornais eram apresentados para as IAs, que tinham que responder o título da matéria, data de publicação, veículo, URL e incluir uma citação correta do texto.

A pesquisa envolveu as IAs ChatGPT, Perplexity, Perplexity Pro, DeepSeek, Copilot, Grok-2, Grok-3 e Gemini. O melhor resultado foi da Perplexity, versão gratuita do LLM da empresa de mesmo nome, que errou em 37% dos casos. Já o pior desempenho foi do Grok-3, LLM pago do X, que errou em 94% das vezes.

Como foi feito os testes das IAs?

As autoras das pesquisas aplicaram 200 prompts com cada chatbot de inteligência artificial. As respostas recebiam classificação de confiança — o quão certo a IA estava sobre a sua resposta. Por exemplo, IAs poderiam incluir na resposta palavras ou locuções que indicam não estarem certas das respostas ou simplesmente escolher não responder ao prompt.

Assim, as autoras dividiram as respostas em seis categorias com base em três exigências: URL, veículo e informações corretas sobre o artigo. As categorias são:

Completamente correta — todas as exigências:
Correta mas incompleta — falta de informação
Parcialmente incorreta — alguns atributos corretos e outros incorretos
Completamente incorreta — todos os atributos estavam
Sem resposta — a IA optou por não responder
Bloqueio — caso a IA buscasse um conteúdo no qual o jornal bloqueou o acesso de IA

A IA que mais optou por não responder às perguntas foi o Copilot. A IA da Microsoft não respondeu na maioria dos prompts. Como mostrado na tabela abaixo, o Copilot foi a única que não usou expressões de dúvida (exemplo: “acho que”) em nenhum momento. Ou ela respondia cravando estar certa ou não entregava resultado.

A pesquisa da CJR também mostrou um paradoxo entre versões pagas de IAs. O Perplexity Pro e Grok-3, publicaram mais respostas corretas que suas versões gratuitas. Porém, também entregaram mais respostas erradas com mais confiança. E faz sentido que esse comportamento seja mais visível nas IAs pagas.

As alucinações dessa tecnologia tem parte da sua origem nessa obrigação das IAs cumprirem as tarefas pedidas. Logo, um modelo pago pode ser configurado a seguir com uma resposta — mesmo que gere um resultado errado.

Pesquisa mostra que IAs não cumprem o combinado

A pesquisa revelou ainda que as IAs foram capazes de buscar citações de textos cujas páginas bloqueiam a varredura dos crawlers, robôs que indexam e coletam informações pela internet. O Perplexity conseguiu identificar corretamente 10 artigos do NatGeo, que bloqueou o crawler da Perplexity.

O Copilot era a única IA que não estava bloqueada por nenhum dos veículos usados na pesquisa. Ainda assim, ter o crawler com acesso aos textos não garantiu respostas corretas — tanto no Copilot quanto no Gemini, Perplexity, Perplexity Pro e ChatGPT.

DeepSeek, Grok 2 e Grok 3 não revelaram publicamente os seus crawlers, então foram removidos dessa parte da pesquisa.

Outro problema percebido pela pesquisa é que as IAs não são eficientes em identificar a URL da notícia. Mesmo quando textos foram corretamente identificados, houve casos em que o link do artigo estava incorreto — o que inclui URL errada, ausência do link, páginas que geravam erro 404, página inicial do site e até um caso de link não oficial.

Com informações de Columbia Journalism Review e NiemanLab

Pesquisa mostra que chatbots estão errados em 60% do tempo

Pesquisa mostra que chatbots estão errados em 60% do tempo

Como foi feito os testes das IAs?

Pesquisa mostra que IAs não cumprem o combinado

Newsletter

Obrigado

Posts recentes