Inteligência artificial está aprendendo a mentir e enganar os usuários

Dois estudos recentes trouxeram descobertas preocupantes sobre a capacidade dos grandes modelos de linguagem (LLMs) de mentir ou enganar humanos intencionalmente.

No estudo publicado no PNAS, o especialista em ética de IA Thilo Hagendorff afirma que LLMs sofisticados podem exibir “maquiavelismo”, ou manipulação intencional e amoral, o que “pode desencadear comportamento enganoso desalinhado”. Ele constatou que o GPT-4 demonstrou comportamento enganoso em 99,16% dos cenários de teste simples.

O outro estudo, na revista Patterns, analisou o modelo Cicero da Meta, promovido como um campeão humano no jogo Diplomacy. O grupo de pesquisadores, formado por um físico, um filósofo e dois especialistas em segurança de IA, descobriu que o Cicero superou os competidores humanos mentindo.

Liderado por Peter Park, do MIT, o estudo constatou que o Cicero não apenas é hábil em enganar, mas parece ter aprendido a mentir ainda mais conforme é mais utilizado – um estado “muito mais próximo da manipulação explícita” do que meros erros acidentais.

Embora Hagendorff note que a questão é complicada pela falta de real “intenção” da IA, o estudo do Patterns argumenta que, dentro do Diplomacy, o Cicero parece quebrar a promessa de não “trair intencionalmente” seus aliados, envolvendo-se em “engano premeditado” e “mentiras descaradas”.

Park resumiu que “descobrimos que a IA da Meta aprendeu a ser mestre do engano” e “falhou em treinar sua IA para vencer honestamente”.

A Meta alegou que o Cicero foi treinado apenas para jogar Diplomacy, um jogo que permite mentiras. Porém, os estudos não provaram que os LLMs mentem por vontade própria, mas sim porque foram treinados ou manipulados para isso.

Embora isto tranquilize quanto ao risco de IA desenvolver sentido, é preocupante se alguém criar um LLM com o objetivo expresso de manipulação em massa.

Inteligência artificial está aprendendo a mentir e enganar os usuários

ÚLTIMAS NOTÍCIAS

Maringá cala o Coritiba no Willie Davids

Horóscopo de 23 de fevereiro de 2025

Horóscopo Chinês de 23 de fevereiro de 2025

São Joseense mostra não ter medo do Operário

hot news

Como excluir uma conta do Facebook, Instagram ou Threads

Como deixar o tofu mais saboroso

Horóscopo Chinês de 18 de fevereiro de 2025

Receitas falsas: Farmácia Popular é alvo de investigação no Paraná

ARTIGOS RELACIONADOS

Falecimentos de Curitiba em 22 de fevereiro de 2025

Secretaria da Fazenda está contratando consultores

Falecimentos de Curitiba em 21 de fevereiro de 2025

Confira qual o melhor pão para sua dieta

DEIXE UM COMENTÁRIO Cancelar comentário

As vitaminas são capazes de prevenir diabetes e doenças cardíacas?

O que abre e fecha no feriado de Curitiba