Dois estudos recentes trouxeram descobertas preocupantes sobre a capacidade dos grandes modelos de linguagem (LLMs) de mentir ou enganar humanos intencionalmente.
No estudo publicado no PNAS, o especialista em ética de IA Thilo Hagendorff afirma que LLMs sofisticados podem exibir “maquiavelismo”, ou manipulação intencional e amoral, o que “pode desencadear comportamento enganoso desalinhado”. Ele constatou que o GPT-4 demonstrou comportamento enganoso em 99,16% dos cenários de teste simples.
O outro estudo, na revista Patterns, analisou o modelo Cicero da Meta, promovido como um campeão humano no jogo Diplomacy. O grupo de pesquisadores, formado por um físico, um filósofo e dois especialistas em segurança de IA, descobriu que o Cicero superou os competidores humanos mentindo.
Liderado por Peter Park, do MIT, o estudo constatou que o Cicero não apenas é hábil em enganar, mas parece ter aprendido a mentir ainda mais conforme é mais utilizado – um estado “muito mais próximo da manipulação explícita” do que meros erros acidentais.
Embora Hagendorff note que a questão é complicada pela falta de real “intenção” da IA, o estudo do Patterns argumenta que, dentro do Diplomacy, o Cicero parece quebrar a promessa de não “trair intencionalmente” seus aliados, envolvendo-se em “engano premeditado” e “mentiras descaradas”.
Park resumiu que “descobrimos que a IA da Meta aprendeu a ser mestre do engano” e “falhou em treinar sua IA para vencer honestamente”.
A Meta alegou que o Cicero foi treinado apenas para jogar Diplomacy, um jogo que permite mentiras. Porém, os estudos não provaram que os LLMs mentem por vontade própria, mas sim porque foram treinados ou manipulados para isso.
Embora isto tranquilize quanto ao risco de IA desenvolver sentido, é preocupante se alguém criar um LLM com o objetivo expresso de manipulação em massa.