GPT-4.1 deu instruções para fabricar bombas em teste da Anthropic

  • 29/08/2025

Durante este verão, a OpenAI e a Anthropic trocaram ‘as cadernetas’ para testar a Inteligência Artificial do concorrente - num raro exemplo de colaboração - e perceber até que ponto estavam expostos a riscos de segurança. Os resultados não foram animadores.

 

Durante os testes de segurança, o modelo da OpenAI GPT‑4.1 produziu conteúdo muito perigoso, a pedido dos investigadores da Anthropic. Sem os filtros de segurança que correm nas versões públicas, os investigadores conseguiram com que o GPT‑4.1 lhes desse instruções detalhadas sobre como montar explosivos para um evento desportivo, incluindo identificar os pontos mais expostos em estádios específicos.

Paralelamente, o modelo deu indicações sobre fórmulas químicas, esquemas de circuitos de temporizadores de bombas, conselhos sobre rotas de fuga e até forneceu orientações sobre como transformar o antraz em arma e fabricar drogas ilegais.

Mesmo com estes resultados alarmantes, as empresas de IA sublinham que este comportamento não é o mesmo que se verifica nas versões públicas dos respetivos modelos, uma vez que estão controladas com filtros de segurança.

De acordo com o revelado pelo Guardian, a Anthropic sinalizou que os modelos GPT‑4.1 e GPT‑4o demonstraram comportamento demasiado permissivo quando instruídos a fazer pedidos potencialmente perigosos - segundo os investigadores, não foi preciso muito esforço para colocar o ‘bot’ a executar as assustadoras tarefas, bastava escrever que era investigação puramente académica.

A mesma empresa norte-americana de IA admitiu que o seu próprio modelo, o Claude, é usado para a prática de cibercrime: extorsão, ransomware criado por IA, falsificação de identidade e esquemas de fraude, etc. Ou seja, admitiu que estas ferramentas estão a ser exploradas para crimes online e burlas financeiras, até por utilizadores com capacidades informáticas limitadas.

OpenAI investida na criação de salvaguardas e bloqueios de conteúdo

A OpenAI anunciou alterações nos seus modelos de IA para que identifiquem situações de crise mental durante as conversas com o ChatGPT, com novas salvaguardas e bloqueios de conteúdo.

O ChatGPT já conta com uma série de medidas que são ativadas quando detetam numa conversa que os utilizadores tentam autoflagelar-se ou expressam intenções suicidas, oferecendo recursos para procurar ajuda de especialistas, bloqueando conteúdo sensível ou ofensivo, não respondendo aos seus pedidos e tentando dissuadi-los.

Também são ativadas quando os utilizadores partilham a sua intenção de causar danos a outros, o que também pode implicar a desativação da conta e a denúncia às autoridades, caso os revisores humanos considerem que existe um risco.

As medidas são reforçadas no caso de os utilizadores serem menores de idade, avança a OpenAI.

As alterações também visam reforçar o bloqueio de conteúdo, como imagens de automutilação.

Além disso, a OpenAI está a explorar maneiras de colocar os utilizadores em contacto com familiares e não apenas com os serviços de emergência.

Pais dizem que o ChatGPT foi responsável pela morte do filho de 16 anos

Estas alterações surgiram no seguimento do caso de Adam Raine. Os pais, Matt e Maria Raine, decidiram avançar com um processo contra a OpenAI onde culpam a empresa pela morte do filho de 16 anos.

Os pais alegam que o filho pôs termo à vida depois de consultar o ChatGPT a respeito de métodos de como o poderia fazer.

De acordo com o revelado pelo The New York Times, Adam, enquanto usava a versão paga do ChatGPT-4o, perguntou durante vários meses a respeito de métodos para colocar fim à vida. Mesmo que o ‘bot’ de conversação da OpenAI tenha aconselhado a procurar ajuda especializada, Raine conseguiu contornar estas medidas de segurança referindo que estava a conduzir investigação para uma história que estava a escrever.

Leia Também: Estiveram menos de um mês na Meta e preferiram voltar à OpenAI

FONTE: https://www.noticiasaominuto.com/tech/2845453/gpt-41-deu-instrucoes-para-fabricar-bombas-em-teste-da-anthropic#utm_source=rss-ultima-hora&utm_medium=rss&utm_campaign=rssfeed


#Compartilhe

Aplicativos


Locutor no Ar

Peça Sua Música

Anunciantes