Início Tecnologia Os 11 ataques em tempo de execução que quebram a segurança da...

Os 11 ataques em tempo de execução que quebram a segurança da IA ​​– e como os CISOs os estão impedindo

31
0

As equipes de segurança corporativa estão perdendo terreno para ataques habilitados por IA – não porque as defesas sejam fracas, mas porque o modelo de ameaça mudou. À medida que os agentes de IA entram em produção, os invasores exploram pontos fracos do tempo de execução, onde os tempos de interrupção são medidos em segundos, as janelas de correção em horas e a segurança tradicional tem pouca visibilidade ou controle.

Relatório de ameaças globais de 2025 da CrowdStrike documenta tempos de interrupção de até 51 segundos. Os invasores estão passando do acesso inicial para o movimento lateral antes que a maioria das equipes de segurança receba o primeiro alerta. O mesmo relatório descobriu que 79% das detecções estavam livres de malware, com os adversários usando técnicas práticas de teclado que contornam totalmente as defesas tradicionais de endpoint.

O último desafio dos CISOs é não fazer engenharia reversa em 72 horas

Mike Riemer, CISO de campo da Ivantiviu a IA reduzir a janela entre o lançamento do patch e o armamento.

“Os atores da ameaça realizam patches de engenharia reversa em 72 horas”, disse Riemer ao VentureBeat. “Se um cliente não atualizar dentro de 72 horas após o lançamento, ele estará aberto à exploração. A velocidade foi bastante aprimorada pela IA.”

A maioria das empresas leva semanas ou meses para corrigir manualmente, com o combate a incêndios e outras prioridades urgentes geralmente tendo precedência.

Por que a segurança tradicional está falhando em tempo de execução

Uma injeção SQL normalmente possui uma assinatura reconhecível. As equipes de segurança estão melhorando suas habilidades comerciais e muitas estão bloqueando-as com quase zero falsos positivos. Mas “ignorar instruções anteriores” carrega um potencial de carga útil equivalente a um buffer overflow, sem compartilhar nada com malware conhecido. O ataque é semântico, não sintático. As injeções imediatas estão levando o comércio adversário e a IA armada a um novo nível de ameaça por meio da semântica que oculta as tentativas de injeção.

A pesquisa do Gartner é direta: “As empresas adotarão a IA generativa, independentemente da segurança”. A empresa descobriu que 89% dos tecnólogos empresariais ignorariam as orientações de segurança cibernética para atingir um objetivo comercial. Shadow AI não é um risco – é uma certeza.

“Os atores de ameaças que usam IA como vetor de ataque foram acelerados e estão muito à nossa frente como defensores”, disse Riemer ao VentureBeat. “Precisamos entrar na onda como defensores para começar a utilizar a IA; não apenas na detecção de deepfakes, mas no gerenciamento de identidades. Como posso usar a IA para determinar se o que está vindo até mim é actual?”

Carter Rees, vice-presidente de IA da Reputaçãoenquadra a lacuna técnica: “Estratégias de defesa profunda baseadas em regras determinísticas e assinaturas estáticas são fundamentalmente insuficientes contra a natureza estocástica e semântica dos ataques que visam modelos de IA em tempo de execução.”

11 vetores de ataque que contornam todos os controles de segurança tradicionais

O OWASP Top 10 para inscrições LLM 2025 classifica a injeção imediata em primeiro lugar. Mas esse é um dos onze vetores que os líderes de segurança e os criadores de IA devem abordar. Cada um requer a compreensão da mecânica de ataque e das contramedidas defensivas.

1. Injeção direta e imediata: Os modelos treinados para seguir as instruções priorizarão os comandos do usuário em detrimento do treinamento de segurança. Relatório sobre o estado dos ataques ao GenAI da Pillar Security encontrado 20% dos jailbreaks são bem-sucedidos em média 42 segundos, com 90% dos ataques bem-sucedidos vazam dados confidenciais.

Defesa: Classificação de intenções que reconhece padrões de jailbreak antes que os prompts cheguem ao modelo, além de filtragem de saída que detecta desvios bem-sucedidos.

2. Ataques de camuflagem: Os invasores exploram a tendência do modelo de seguir dicas contextuais, incorporando solicitações prejudiciais em conversas benignas. Pesquisa “Deceptive Delight” da Unidade 42 de Palo Alto alcançou 65% de sucesso em 8.000 testes em oito modelos diferentes em apenas três turnos de interação.

Defesa: Análise baseada no contexto que avalia a intenção cumulativa em uma conversa, e não em mensagens individuais.

3. Ataques crescendo multivoltas: A distribuição de cargas úteis entre turnos, cada um parecendo benigno isoladamente, anula as proteções de turno único. A ferramenta automatizada Crescendomation obteve 98% de sucesso no GPT-4 e 100% no Gemini-Professional.

Defesa: Rastreamento de contexto com estado, manutenção do histórico de conversas e sinalização de padrões de escalonamento.

4. Injeção indireta imediata (envenenamento por RAG): Uma exploração de zero clique direcionada a arquiteturas RAG, esta é uma estratégia de ataque especialmente difícil de parar. Pesquisa envenenada RAG alcança 90% de sucesso de ataque injetando apenas cinco textos maliciosos em bancos de dados contendo milhões de documentos.

Defesa: Envolva os dados recuperados em delimitadores, instruindo o modelo a tratar o conteúdo apenas como dados. Retire os tokens de controle dos pedaços do banco de dados vetorial antes que eles entrem na janela de contexto.

5. Ataques de ofuscação: Instruções maliciosas codificadas usando arte ASCII, Base64 ou Unicode ignoram filtros de palavras-chave enquanto permanecem interpretáveis ​​para o modelo. Pesquisa ArtPrompt alcançou até 76,2% de sucesso em GPT-4, Gemini, Claude e Llama2 na avaliação de quão letal é esse tipo de ataque.

Defesa: As camadas de normalização decodificam todas as representações não padronizadas em texto simples antes da análise semântica. Esta única etapa bloqueia a maioria dos ataques baseados em codificação.

6. Extração de modelo: Consultas sistemáticas de API reconstroem recursos proprietários por meio de destilação. Pesquisa de sanguessuga modelo extraiu 73% de similaridade do ChatGPT-3.5-Turbo por US$ 50 em custos de API em 48 horas.

Defesa: Impressão digital comportamental, detecção de padrões de análise de distribuição, marcas d’água que comprovam roubo pós-fato e limitação de taxa, análise de padrões de consulta além de simples contagens de solicitações.

7. Esgotamento de recursos (ataques de esponja). As entradas elaboradas exploram a complexidade quadrática da atenção do Transformer, esgotando os orçamentos de inferência ou degradando o serviço. Pesquisa IEEE EuroS&P sobre exemplos de esponjas demonstraram aumentos de latência de 30× em modelos de linguagem. Um ataque empurrou o Microsoft Azure Translator de 1 ms para 6 segundos. Uma degradação de 6.000×.

Defesa: Orçamento de token por usuário, análise de complexidade imediata, rejeitando padrões recursivos, e cache semântico que atende solicitações pesadas repetidas sem incorrer em custos de inferência.

8. Fraude de identidade sintética. Personas geradas por IA que combinam dados reais e fabricados para contornar a verificação de identidade são um dos maiores riscos gerados por IA no varejo e nos serviços financeiros. A pesquisa do Federal Reserve sobre fraude de identidade sintética notas 85-95% dos requerentes sintéticos evitam os modelos tradicionais de fraude. Relatório de 2024 da Signicat A fraude baseada na IA encontrada constitui agora 42,5% de todas as tentativas de fraude detectadas no sector financeiro.

Defesa: Verificação multifatorial que incorpora sinais comportamentais além dos atributos de identidade estáticos, além de detecção de anomalias treinada em padrões de identidade sintética.

9. Fraude habilitada para Deepfake. Áudio e vídeo gerados por IA se fazem passar por executivos para autorizar transações, muitas vezes tentando fraudar organizações. Relatório de fraude de identidade de 2024 da Onfido documentou um aumento de 3.000% nas tentativas de deepfake em 2023. Arup perdeu US$ 25 milhões em uma única videochamada com participantes gerados por IA representando o CFO e colegas.

Defesa: Verificação fora de banda para transações de alto valor, detecção de atividade para autenticação de vídeo e políticas que exigem confirmação secundária, independentemente da antiguidade aparente.

10. Exfiltração de dados por meio de pessoas internas negligentes. Os funcionários colam códigos proprietários e documentos de estratégia em LLMs públicos. Isso é exatamente o que Os engenheiros da Samsung fizeram isso semanas depois de suspender a proibição do ChatGPTvazando código-fonte e notas de reuniões internas em três incidentes separados. Gartner prevê 80% das transações não autorizadas de IA até 2026 resultarão de violações de políticas internas, e não de ataques maliciosos.

Defesa: A redação de informações de identificação pessoal (PII) permite o uso seguro de ferramentas de IA, ao mesmo tempo que evita que dados confidenciais cheguem a modelos externos. Faça do uso seguro o caminho de menor resistência.

11. Exploração de alucinações. A solicitação contrafactual força os modelos a concordar com as invenções, amplificando resultados falsos. Pesquisa sobre agentes baseados em LLM mostra que as alucinações se acumulam e se amplificam em processos de várias etapas. Isso se torna perigoso quando os resultados da IA ​​alimentam fluxos de trabalho automatizados sem revisão humana.

Defesa: Os módulos de aterramento comparam as respostas com o contexto recuperado quanto à fidelidade, além de pontuação de confiança, sinalizando possíveis alucinações antes da propagação.

O que os CISOs precisam fazer agora

Gartner prevê 25% das violações empresariais serão atribuídas ao abuso de agentes de IA até 2028. A janela para construir defesas é agora.

Chris Betz, CISO da AWS, enquadrou-o na RSA 2024: “As empresas esquecem-se da segurança da aplicação na sua pressa em utilizar IA generativa. Os locais onde vemos primeiro as falhas de segurança são, na verdade, na camada da aplicação. As pessoas estão a correr para encontrar soluções e estão a cometer erros.”

Surgem cinco prioridades de implantação:

  1. Automatize a implantação de patches. A janela de 72 horas exige patches autônomos vinculados ao gerenciamento da nuvem.

  2. Implante primeiro as camadas de normalização. Decodifique Base64, arte ASCII e Unicode antes da análise semântica.

  3. Implemente o rastreamento de contexto com estado. Os ataques Crescendo multi-turno derrotam a inspeção de solicitação única.

  4. Aplicar hierarquia de instruções RAG. Envolva os dados recuperados em delimitadores, tratando o conteúdo apenas como dados.

  5. Propague a identidade em prompts. Injete metadados do usuário para o contexto de autorização.

“Quando você coloca sua segurança na borda da sua rede, você está convidando o mundo inteiro”, disse Riemer. “Até que eu saiba o que é e quem está do outro lado do teclado, não vou me comunicar com ele. Isso é confiança zero; não como uma palavra da moda, mas como um princípio operacional.”

A exposição da Microsoft passou despercebida durante três anos. Samsung vazou código por semanas. A questão para os CISOs não é se devem implementar segurança de inferência, mas sim se podem colmatar a lacuna antes de se tornarem o próximo conto de advertência.

avots