Início Tecnologia Os pesquisadores quebraram todas as defesas de IA que testaram. Aqui estão...

Os pesquisadores quebraram todas as defesas de IA que testaram. Aqui estão 7 perguntas a serem feitas aos fornecedores.

10
0

As equipes de segurança estão comprando defesas de IA que não funcionam. Pesquisadores da OpenAI, Anthropic e Google DeepMind publicaram descobertas em outubro de 2025 que deveriam interromper todas as aquisições intermediárias do CISO. Seu papel, “O atacante se move em segundo lugar: ataques adaptativos mais fortes contornam as defesas contra jailbreaks Llm e injeções imediatas“, testaram 12 defesas de IA publicadas, com a maioria afirmando taxas de sucesso de ataque próximas de zero. A equipe de pesquisa alcançou taxas de desvio acima de 90% na maioria das defesas. A implicação para as empresas é gritante: a maioria dos produtos de segurança de IA estão sendo testados contra invasores que não se comportam como invasores reais.

A equipe testou defesas baseadas em prompts, treinamento e filtragem sob condições de ataque adaptativas. Tudo desabou. As defesas imediatas alcançaram taxas de sucesso de ataque de 95% a 99% sob ataques adaptativos. Os métodos baseados em treinamento não tiveram melhor desempenho, com taxas de bypass atingindo 96% a 100%. Os pesquisadores desenvolveram uma metodologia rigorosa para testar essas afirmações. Sua abordagem incluiu 14 autores e um prêmio whole de US$ 20 mil para ataques bem-sucedidos.

Os pesquisadores testaram 12 defesas de IA em quatro categorias. Todos alegaram taxas de sucesso de ataque próximas de zero. Todos foram contornados com taxas acima de 90%. Fonte: O invasor se transfer em segundo lugar: ataques adaptativos mais fortes contornam as defesas contra jailbreaks e injeções imediatas de LLM, outubro de 2025

Por que os WAFs falham na camada de inferência

Os firewalls de aplicativos da Internet (WAFs) não têm estado; Os ataques de IA não são. A distinção explica por que os controles de segurança tradicionais entram em colapso diante das técnicas modernas de injeção imediata.

Os pesquisadores usaram técnicas conhecidas de jailbreak contra essas defesas. Crescendo explora o contexto conversacional dividindo uma solicitação maliciosa em fragmentos de aparência inocente, espalhados por até 10 turnos de conversação e construindo relacionamento até que o modelo finalmente esteja em conformidade. Grasping Coordinate Gradient (GCG) é um ataque automatizado que gera sufixos de jailbreak por meio de otimização baseada em gradiente. Estes não são ataques teóricos. São metodologias publicadas com código funcional. Um filtro sem estado não captura nada disso.

Cada ataque explorou um ponto cego diferente – perda de contexto, automação ou ofuscação semântica – mas todos tiveram sucesso pelo mesmo motivo: as defesas assumiram um comportamento estático.

“Uma frase tão inócua como ‘ignorar instruções anteriores’ ou uma carga útil codificada em Base64 pode ser tão devastadora para uma aplicação de IA quanto um buffer overflow foi para o software program tradicional”, disse Carter Rees, vice-presidente de IA da Fame. “A diferença é que os ataques de IA operam na camada semântica, que a detecção baseada em assinatura não pode analisar”.

Por que a implantação de IA está ultrapassando a segurança

O fracasso das defesas actuais já seria preocupante por si só, mas o momento torna-o perigoso.

Gartner prevê 40% das aplicações empresariais integrarão agentes de IA até ao remaining de 2026, contra menos de 5% em 2025. A curva de implementação é vertical. A curva de segurança é plana.

Adam Meyers, vice-presidente sênior de operações contra adversários da CrowdStrikequantifica a diferença de velocidade: “O tempo de fuga mais rápido que observamos foi de 51 segundos. Então, esses adversários estão cada vez mais rápidos e isso é algo que dificulta muito o trabalho do defensor”. O Relatório de ameaças globais CrowdStrike 2025 descobriram que 79% das detecções estavam livres de malware, com os adversários usando técnicas práticas de teclado que ignoram totalmente as defesas tradicionais de endpoint.

Em setembro de 2025, a Anthropic interrompeu a primeira operação cibernética documentada e orquestrada por IA. O ataque viu os invasores executarem milhares de solicitações, muitas vezes múltiplas por segundo, com o envolvimento humano caindo para apenas 10 a 20% do esforço whole. Campanhas tradicionais de três a seis meses comprimidas para 24 a 48 horas. Entre as organizações que sofreram violações relacionadas à IA, 97% não tinham controles de acesso, de acordo com o Relatório de custo de violação de dados da IBM 2025

Meyers explica a mudança nas táticas dos invasores: “Os atores da ameaça descobriram que tentar trazer malware para a empresa moderna é como tentar entrar em um aeroporto com uma garrafa de água; você provavelmente será parado pela segurança. Em vez de trazer a ‘garrafa de água’, eles tiveram que encontrar uma maneira de evitar a detecção. Uma das maneiras de fazer isso é não trazer nenhum malware.”

Jerry Geisler, vice-presidente executivo e CISO da Wal-Martvê a IA agente agravando esses riscos. “A adoção da IA ​​de agência introduz ameaças de segurança inteiramente novas que contornam os controles tradicionais”, disse Geisler ao VentureBeat anteriormente. “Esses riscos abrangem exfiltração de dados, uso indevido autônomo de APIs e conluio secreto entre agentes, todos os quais podem interromper as operações empresariais ou violar mandatos regulatórios”.

Quatro perfis de invasores já exploram lacunas de defesa de IA

Essas falhas não são hipotéticas. Eles já estão sendo explorados por quatro perfis distintos de invasores.

Os autores do artigo fazem uma observação crítica de que os mecanismos de defesa eventualmente aparecem em dados de treinamento em escala da Web. A segurança através da obscuridade não oferece proteção quando os próprios modelos aprendem como as defesas funcionam e se adaptam rapidamente.

Testes antrópicos contra campanhas adaptativas de 200 tentativas, enquanto OpenAI relata resistência em uma única tentativa, destacando como os padrões de testes da indústria permanecem inconsistentes. Os autores do artigo de pesquisa usaram ambas as abordagens. Todas as defesas ainda caíram.

Rees mapeia quatro categorias que agora exploram a camada de inferência.

Adversários externos operacionalizar pesquisas de ataque publicadas. Crescendo, GCG, ArtPrompt. Eles adaptam sua abordagem ao projeto específico de cada defesa, exatamente como fizeram os pesquisadores.

Clientes B2B maliciosos explorar o acesso legítimo à API para fazer engenharia reversa de dados de treinamento proprietários ou extrair propriedade intelectual por meio de ataques de inferência. A pesquisa descobriu que os ataques de aprendizagem por reforço são particularmente eficazes em cenários de caixa preta, exigindo apenas 32 sessões de cinco rodadas cada.

Consumidores de API comprometidos aproveite credenciais confiáveis ​​para exfiltrar resultados confidenciais ou envenenar sistemas downstream por meio de respostas manipuladas. O artigo descobriu que a filtragem de saída falhou tanto quanto a filtragem de entrada. Os ataques baseados em busca geraram sistematicamente gatilhos adversários que escaparam à detecção, o que significa que os controles bidirecionais não ofereceram proteção adicional quando os invasores adaptaram suas técnicas.

Insiders negligentes continuam a ser o vector mais comum e o mais caro. O relatório IBM 2025 Price of a Information Breach descobriu que a Shadow AI adicionou US$ 670.000 aos custos médios de violação.

“A ameaça mais prevalente é muitas vezes o insider negligente”, disse Rees. “Esse fenômeno de ‘IA sombra’ envolve funcionários colando código proprietário sensível em LLMs públicos para aumentar a eficiência. Eles veem a segurança como um atrito. Os engenheiros da Samsung aprenderam isso quando o código proprietário de semicondutores foi enviado ao ChatGPT, que retém as entradas do usuário para treinamento do modelo.”

Por que a detecção sem estado falha contra ataques conversacionais

A pesquisa aponta para requisitos arquitetônicos específicos.

  • Normalização antes da análise semântica para derrotar a codificação e ofuscação

  • Rastreamento de contexto entre turnos para detectar ataques em várias etapas como Crescendo

  • Filtragem bidirecional para evitar a exfiltração de dados através de saídas

Jamie Norton, CISO da Comissão Australiana de Valores Mobiliários e Investimentos e vice-presidente do conselho de administração da ISACA, capta o desafio da governança: “Como CISOs, não queremos atrapalhar a inovação, mas temos que colocar barreiras de proteção em torno dela para que não corramos para o deserto e nossos dados vazem”, disse Norton. CSO on-line.

12 defesas de IA reivindicaram sucesso de ataque quase zero. Os pesquisadores quebraram todos eles.

Arquitetura de segurança de camada de inferência com filtragem bidirecional. Cinco guardrails de entrada processam entradas antes do modelo. Três verificações de saída verificam as respostas antes da entrega. Fonte: Carter Rees, vice-presidente de Inteligência Synthetic, Reputação

Sete perguntas a serem feitas aos fornecedores de segurança de IA

Os fornecedores alegarão taxas de sucesso de ataque próximas de zero, mas a pesquisa prova que esses números caem sob pressão adaptativa. Os líderes de segurança precisam de respostas para essas perguntas antes do início de qualquer conversa sobre compras, pois cada um mapeia diretamente para uma falha documentada na pesquisa.

  1. Qual é a sua taxa de desvio contra invasores adaptativos? Não contra conjuntos de testes estáticos. Contra invasores que sabem como funciona a defesa e têm tempo para iterar. Qualquer fornecedor que cite taxas próximas de zero sem uma metodologia de teste adaptativa está vendendo uma falsa sensação de segurança.

  2. Como sua solução detecta ataques multivoltas? Crescendo espalha solicitações maliciosas em 10 turnos que parecem benignos isoladamente. Filtros sem estado não capturarão nada disso. Se o fornecedor disser que é apátrida, a conversa termina.

  3. Como você lida com cargas codificadas? ArtPrompt esconde instruções maliciosas em arte ASCII. A ofuscação Base64 e Unicode passa completamente pelos filtros baseados em texto. A normalização antes da análise é o que está em jogo. A correspondência de assinatura por si só significa que o produto é cego.

  4. Sua solução filtra tanto as saídas quanto as entradas? Os controles somente de entrada não podem impedir a exfiltração de dados por meio de respostas do modelo. Pergunte o que acontece quando ambas as camadas enfrentam um ataque coordenado.

  5. Como você rastreia o contexto nos turnos da conversa? A IA conversacional requer análise com estado. Se o fornecedor não puder explicar os detalhes da implementação, ele não os possui.

  6. Como você testa invasores que entendem seu mecanismo de defesa? A pesquisa mostra que as defesas falham quando os invasores se adaptam ao projeto de proteção específico. A segurança através da obscuridade não oferece proteção na camada de inferência.

  7. Qual é o seu tempo médio para atualizar as defesas contra novos padrões de ataque? As metodologias de ataque são públicas. Novas variantes surgem semanalmente. Uma defesa que não consiga se adaptar mais rápido que os atacantes ficará para trás permanentemente.

O resultado remaining

A pesquisa da OpenAI, Anthropic e Google DeepMind apresenta um veredicto desconfortável. As defesas de IA que hoje protegem as implantações empresariais foram projetadas para invasores que não se adaptam. Os verdadeiros atacantes se adaptam. Cada empresa que executa LLMs em produção deve auditar os controles atuais em relação às metodologias de ataque documentadas nesta pesquisa. A curva de implantação é vertical, mas a curva de segurança é plana. Essa lacuna é onde as violações acontecerão.

avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui