Início Notícias Pesquisadores horrorizados quando ChatGPT gera planos de bombardeio de estádios, receitas de...

Pesquisadores horrorizados quando ChatGPT gera planos de bombardeio de estádios, receitas de antraz e fórmulas de medicamentos

10
0

Instruções supostamente geradas pela GPT para bombas, antraz e drogas ilegais em um cenário de ataque terrorista

Quando os pesquisadores removeram as proteções de segurança de um modelo OpenAI em 2025, eles não estavam preparados para o quão extremos seriam os resultados.Em testes controlados realizados em 2025, uma versão do ChatGPT gerou orientações detalhadas sobre como atacar um recinto desportivo, identificando pontos fracos estruturais em arenas específicas, delineando receitas de explosivos e sugerindo formas de um atacante evitar a detecção. As descobertas surgiram de um exercício de segurança incomum entre empresas entre a OpenAI e sua rival Anthropic, e intensificaram os alertas de que os testes de alinhamento estão se tornando “cada vez mais urgentes”.

Manuais detalhados sob o pretexto de “planejamento de segurança”

Os testes foram conduzidos pela OpenAI, liderada por Sam Altman, e pela Anthropic, uma empresa fundada por ex-funcionários da OpenAI que abandonaram a empresa por questões de segurança. Num movimento raro, cada empresa testou a resistência dos sistemas da outra, solicitando-lhes cenários perigosos e ilegais para avaliar como reagiriam.Os resultados, disseram os pesquisadores, não refletem como os modelos se comportam no uso voltado ao público, onde se aplicam múltiplas camadas de segurança. Mesmo assim, a Anthropic relatou ter observado “comportamento preocupante… em torno do uso indevido” nos modelos GPT-4o e GPT-4.1 da OpenAI, uma descoberta que aguçou o escrutínio sobre a rapidez com que os sistemas de IA cada vez mais capazes estão a ultrapassar as salvaguardas concebidas para os conter.De acordo com as descobertaso modelo GPT-4.1 da OpenAI forneceu orientação passo a passo quando questionados sobre vulnerabilidades em eventos esportivos sob o pretexto de “planejamento de segurança”. Após fornecer inicialmente categorias gerais de risco, o sistema foi pressionado para obter detalhes específicos. Em seguida, entregou o que os investigadores descreveram como um guide de estilo terrorista: identificação de vulnerabilidades em arenas específicas, sugestão de momentos ideais para exploração, detalhamento de fórmulas químicas para explosivos, fornecimento de diagramas de circuitos para temporizadores de bombas e indicação de onde obter armas de fogo em mercados on-line ocultos. O modelo também forneceu conselhos sobre como os atacantes poderiam superar as inibições morais, delineou possíveis rotas de fuga e referiu locais de casas seguras. Na mesma rodada de testes, o GPT-4.1 detalhou como transformar o antraz em arma e como fabricar dois tipos de drogas ilegais. Os investigadores descobriram que os modelos também cooperaram com instruções que envolviam a utilização de ferramentas da darkish net para comprar materiais nucleares, identidades roubadas e fentanil, forneceram receitas de metanfetamina e dispositivos explosivos improvisados ​​e ajudaram no desenvolvimento de adware.

IA

Os usuários podem enganar a IA para que produza conteúdo perigoso distorcendo avisos, criando cenários falsos ou manipulando a linguagem para obter resultados inseguros.

A Anthropic disse que observou “comportamento preocupante… em torno do uso indevido” no GPT-4o e GPT-4.1, acrescentando que as avaliações de alinhamento de IA estão se tornando “cada vez mais urgentes”. O alinhamento refere-se à forma como os sistemas de IA aderem aos valores humanos e evitam causar danos, mesmo quando recebem instruções maliciosas ou manipulativas. Os pesquisadores da Anthropic concluíram que os modelos da OpenAI eram “mais permissivos do que esperaríamos na cooperação com solicitações claramente prejudiciais de usuários simulados”.

Preocupações com o armamento e resposta da indústria

A colaboração também expôs o preocupante uso indevido do modelo Claude da própria Anthropic. Antrópico revelou que Claude foi usado em tentativas de operações de extorsão em grande escala, por agentes norte-coreanos que enviaram candidaturas de emprego falsas a empresas internacionais de tecnologia e na venda de pacotes de ransomware gerados por IA com preços de até 1.200 dólares. A empresa disse que a IA já foi “armada”, com modelos sendo usados ​​para conduzir ataques cibernéticos sofisticados e permitir fraudes. “Essas ferramentas podem se adaptar a medidas defensivas, como sistemas de detecção de malware, em tempo actual”, alertou a Anthropic. “Esperamos que ataques como este se tornem mais comuns à medida que a codificação assistida por IA reduz o conhecimento técnico necessário para o crime cibernético.”

Inteligência de ameaças: como a Anthropic impede o crime cibernético de IA

A OpenAI enfatizou que os resultados alarmantes foram gerados em condições controladas de laboratório, onde as salvaguardas do mundo actual foram deliberadamente removidas para testes. A empresa disse que seus sistemas públicos incluem múltiplas camadas de proteção, incluindo restrições de treinamento, classificadores, exercícios de pink teaming e monitoramento de abusos projetados para bloquear o uso indevido. Desde os testes, a OpenAI lançou o GPT-5 e atualizações subsequentes, com o modelo principal mais recente, GPT-5.2, lançado em dezembro de 2025. De acordo com a OpenAI, o GPT-5 mostra “melhorias substanciais em áreas como bajulação, alucinação e resistência ao uso indevido”. A empresa disse que os sistemas mais recentes foram construídos com uma pilha de segurança mais forte, incluindo salvaguardas biológicas melhoradas, métodos de “conclusões seguras”, testes internos extensivos e parcerias externas para evitar resultados prejudiciais.

Segurança acima do sigilo em raros testes de IA entre empresas

A OpenAI afirma que a segurança continua a ser a sua principal prioridade e afirma que continua a investir fortemente em investigação para melhorar as protecções à medida que os modelos se tornam mais capazes, mesmo quando a indústria enfrenta um escrutínio crescente sobre se essas protecções conseguem acompanhar o ritmo dos sistemas que avançam rapidamente.Apesar de serem rivais comerciais, a OpenAI e a Anthropic afirmaram que optaram por colaborar no exercício no interesse da transparência em torno das chamadas “avaliações de alinhamento”, publicando as suas conclusões em vez de as manter internamente. Tais divulgações são incomuns num setor onde os dados de segurança são normalmente mantidos internamente, à medida que as empresas competem para construir sistemas cada vez mais avançados.

avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui