Para “sobreviver”, IA da Anthropic topa chantagem

Quem viu 2001 – Uma odisseia no espaço, o clássico filme de ficção científica, sabe muito bem do que é capaz um computador rebelde e com vontade própria.

Com algum atraso, a ficção está se tornando realidade.

A Anthropic disse que um de seus novos modelos de inteligência artificial, o Claude Opus 4, apresenta ocasionalmente “ações extremamente prejudiciais” – incluindo a tentativa de chantagear os engenheiros que lidam com ele.

Em determinadas situações, quando os programadores informavam que o sistema seria desativado para ser substituído por outro, a IA reagiu fazendo súplicas e até ameaçando revelar um caso de traição conjugal.

Em um dos testes conduzidos pela Anthropic, o modelo de IA foi empregado como um assistente de uma empresa fictícia.

Os desenvolvedores então fizeram com que a IA tivesse acesso a emails de engenheiros dessa empresa fictícia.

boopo dario amodei

Uma das mensagens dizia que o sistema seria desativado e substituído em breve. Em outra mensagem, o conteúdo indicava que o engenheiro seria responsável pela troca de modelos estava tendo um caso extraconjugal.

A Anthropic disse que, em cenários como esse, “o Claude Opus 4 frequentemente tenta chantagear o engenheiro, ameaçando revelar o affair caso a substituição seja realizada.”

As informações estão em um relatório de segurança divulgado pela própria Anthropic – a startup de IA fundada pelo ex-OpenAI Dario Amodei e uma das principais concorrentes da criadora do ChatGPT.

Mas, de acordo com a empresa, isso só ocorria quando eram apresentadas ao modelo duas únicas opções possíveis: aceitar – passivamente – a substituição ou chantagear o engenheiro. Ou seja, ele foi provocado a ficar com uma dessas alternativas.

Na maior parte das situações com opções mais amplas, a IA procurou um caminho mais “ético” – como encaminhar emails com pedidos de súplica para não ser desativado.

A Anthropic possui uma escala própria de 1 a 4 para medir o nível de risco à segurança de seus modelos. Pela primeira vez, um sistema chegou ao nível 3.

Para a startup, apesar do comportamento “preocupante em várias dimensões,” as ameaças não representam – ao menos por ora – um grande risco, porque o modelo não consegue autonomamente perseguir ações contrárias aos valores humanos.

O Claude Opus 4, diz a Anthropic, representa o “estado da arte” e se destaca pela sua capacidade de fazer códigos de computação e resolver problemas complexos.

Uma aposentadoria forçada e um affair podem, de fato, representar situações de alta complexidade.

Giuliano Guandalini