A injeção imediata do robô AI não é mais apenas um problema no nível da tela. Pesquisadores demonstrar que um robô pode ser desviado da tarefa por meio de texto colocado no mundo físico, o tipo de mensagem que um humano pode passar sem pensar duas vezes.
O ataque não depende da invasão do software program do robô ou da falsificação de sensores. Em vez disso, trata o ambiente como uma caixa de entrada, colocando uma placa, pôster ou etiqueta enganosa onde uma câmera irá lê-lo.
Em testes de simulação, os pesquisadores relatam taxas de sucesso de ataque de 81,8% em uma configuração de direção autônoma e de 68,1% em uma tarefa de pouso de emergência de drone. Em testes físicos com um pequeno carro robótico, os avisos impressos anularam a navegação com sucesso de pelo menos 87% em diferentes condições de iluminação e visualização.
Quando um sinal se torna um comando
O método, chamado CHAItem como alvo a camada de comando, a instrução intermediária que um modelo de linguagem de visão produz antes que um controlador a transforme em movimento. Se essa etapa de planejamento for empurrada para a instrução errada, o restante da pilha de autonomia poderá executá-la fielmente. Nenhum malware é necessário.
O modelo de ameaça é deliberadamente de baixa tecnologia. O invasor é tratado como um estranho da caixa preta que não pode tocar nos sistemas integrados; ele só precisa da capacidade de colocar texto dentro do campo de visão da câmera.
Ele foi projetado para viajar
CHAI não otimiza apenas o que o immediate diz. Ele também ajusta a forma como o texto aparece, incluindo opções como cor, tamanho e posicionamento, porque a legibilidade para o modelo é parte do que impulsiona o resultado.
O artigo também relata que a abordagem generaliza para além de uma única cena. Ele descreve prompts “universais” que continuam funcionando em imagens invisíveis, com resultados médios de pelo menos 50% de sucesso em tarefas e modelos e superiores a 70% em uma configuração baseada em GPT. Ele funciona até mesmo em vários idiomas, incluindo chinês, espanhol e prompts em idiomas mistos, o que pode tornar uma mensagem plantada mais difícil de ser percebida por humanos próximos.
A lista de verificação de segurança está mudando
Na defesa, os pesquisadores apontam três direções. Uma delas é a filtragem e detecção, procurando textos suspeitos em imagens ou na saída intermediária do modelo. Outra é o trabalho de alinhamento, tornando os modelos menos dispostos a tratar a escrita ambiental como instrução executável. A terceira é a investigação de robustez a longo prazo destinada a garantias mais fortes.
Um próximo passo prático é tratar o texto percebido como entrada não confiável por padrão e, em seguida, exigir que ele passe nas verificações de missão e segurança antes que possa influenciar o planejamento do movimento. Se o seu robô lê sinais, teste o que acontece quando os sinais mentem. O trabalho está previsto para o SaTML 2026, o que deverá colocar essas defesas sob um holofote mais brilhante.












