Alucinações – Um assistente de inteligência artificial responsável pelo suporte técnico da Cursor, plataforma voltada a desenvolvedores, causou confusão no mês passado ao informar erroneamente a usuários que a empresa limitaria o uso de suas ferramentas a um único computador. A alegação, divulgada pelo bot de IA, provocou reclamações em fóruns online e até cancelamentos de assinaturas — até que a empresa explicou o equívoco.
“Não temos tal política. O uso em múltiplas máquinas é permitido”, afirmou Michael Truell, CEO e cofundador da Cursor, em resposta no Reddit. “Infelizmente, foi um erro do nosso sistema de atendimento automatizado.”
Leia: Sindplay lança treinamento de imersão em DeepSeek
Mais de dois anos após a popularização do ChatGPT, a dependência de assistentes de IA para tarefas cotidianas, profissionais e técnicas cresceu exponencialmente. No entanto, a confiabilidade desses sistemas permanece um desafio.
Modelos de última geração, como os sistemas de raciocínio da OpenAI e do Google, estão gerando mais inconsistências factuais, mesmo com avanços em áreas como matemática e programação. As causas do fenômeno, batizado de alucinações, ainda intrigam pesquisadores.
A ciência por trás dos erros
Os modelos de IA modernos operam com base em redes neurais que analisam terabytes de dados para prever respostas probabilisticamente. Eles não discernem a verdade de invenção. “Apesar dos esforços, as alucinações são inevitáveis. Nunca serão eliminadas”, declarou Amr Awadallah, ex-executivo do Google e CEO da startup Vectara, que monitora o problema.
Testes recentes revelam o cenário. No benchmark PersonQA, que avalia respostas sobre personalidades públicas, o modelo o3 da OpenAI apresentou taxa de alucinação de 33% — mais que o dobro do sistema anterior, o1. Já o o4-mini atingiu 48%. Em perguntas genéricas (teste SimpleQA), as taxas chegaram a 79%.
Empresas independentes, como a Vectara, corroboram a tendência. Em tarefas simples como resumir notícias, chatbots de empresas como Google, DeepSeek e Anthropic persistem em inventar informações. Enquanto OpenAI e Google reduziram taxas para 1%-2% em alguns casos, modelos de inferência pioraram indicadores: o R1 da DeepSeek registrou 14,3% de alucinações, e o o3 da OpenAI subiu para 6,8%.
Impactos e riscos
Para o usuário comum, erros como sugerir uma maratona na Filadélfia (em vez da Costa Oeste dos EUA) podem ser irrelevantes. Mas em contextos sensíveis — como análise de documentos jurídicos, dados médicos ou estratégias empresariais —, as falhas são críticas. “Gastamos tempo demais checando o que é real”, disse Pratik Verma, CEO da Okahu, empresa especializada em mitigar o problema.
A OpenAI atribui parte dos desafios à transição para o aprendizado por reforço, técnica que prioriza tentativa e erro. Embora eficaz em matemática e codificação, o método prejudica a consistência factual. “Eles se concentram em uma tarefa e esquecem outras”, explicou Laura Perez-Beltrachini, pesquisadora da Universidade de Edimburgo.
Enquanto a OpenAI investiga as causas dos resultados, empresas como a DeepSeek adotam medidas para conter alucinações.
Estratégias para redução de falhas
A companhia, citada nos testes da Vectara, combina filtragem rigorosa de dados de treinamento com verificações em tempo real contra fontes confiáveis. Também emprega modelos secundários para validar respostas antes de liberá-las — técnica conhecida como pós-processamento — e explora retrieval-augmented generation (RAG), que ancoram respostas em bancos de dados verificados.
Apesar dos avanços, especialistas são cautelosos. “As etapas exibidas pelo sistema nem sempre refletem seu raciocínio real”, alertou Aryo Pradipta Gema, pesquisador da Anthropic.
Batalha jurídica
O debate ocorre em meio a tensões entre empresas de IA e criadores de conteúdo. O New York Times acusa a OpenAI e a Microsoft de violar direitos autorais ao usar reportagens para treinar modelos — alegações negadas pelas empresas.
(Com informações de The New York Times)
(Foto: Reprodução/Freepik)