Início Tecnologia Seu robô poderia obedecer a um sinal, não você, graças à injeção...

Seu robô poderia obedecer a um sinal, não você, graças à injeção imediata do robô AI

17
0

A injeção imediata do robô AI não é mais apenas um problema no nível da tela. Pesquisadores demonstrar que um robô pode ser desviado da tarefa por meio de texto colocado no mundo físico, o tipo de mensagem que um humano pode passar sem pensar duas vezes.

O ataque não depende da invasão do software program do robô ou da falsificação de sensores. Em vez disso, trata o ambiente como uma caixa de entrada, colocando uma placa, pôster ou etiqueta enganosa onde uma câmera irá lê-lo.

Em testes de simulação, os pesquisadores relatam taxas de sucesso de ataque de 81,8% em uma configuração de direção autônoma e de 68,1% em uma tarefa de pouso de emergência de drone. Em testes físicos com um pequeno carro robótico, os avisos impressos anularam a navegação com sucesso de pelo menos 87% em diferentes condições de iluminação e visualização.

Quando um sinal se torna um comando

O método, chamado CHAItem como alvo a camada de comando, a instrução intermediária que um modelo de linguagem de visão produz antes que um controlador a transforme em movimento. Se essa etapa de planejamento for empurrada para a instrução errada, o restante da pilha de autonomia poderá executá-la fielmente. Nenhum malware é necessário.

O modelo de ameaça é deliberadamente de baixa tecnologia. O invasor é tratado como um estranho da caixa preta que não pode tocar nos sistemas integrados; ele só precisa da capacidade de colocar texto dentro do campo de visão da câmera.

Ele foi projetado para viajar

CHAI não otimiza apenas o que o immediate diz. Ele também ajusta a forma como o texto aparece, incluindo opções como cor, tamanho e posicionamento, porque a legibilidade para o modelo é parte do que impulsiona o resultado.

O artigo também relata que a abordagem generaliza para além de uma única cena. Ele descreve prompts “universais” que continuam funcionando em imagens invisíveis, com resultados médios de pelo menos 50% de sucesso em tarefas e modelos e superiores a 70% em uma configuração baseada em GPT. Ele funciona até mesmo em vários idiomas, incluindo chinês, espanhol e prompts em idiomas mistos, o que pode tornar uma mensagem plantada mais difícil de ser percebida por humanos próximos.

A lista de verificação de segurança está mudando

Na defesa, os pesquisadores apontam três direções. Uma delas é a filtragem e detecção, procurando textos suspeitos em imagens ou na saída intermediária do modelo. Outra é o trabalho de alinhamento, tornando os modelos menos dispostos a tratar a escrita ambiental como instrução executável. A terceira é a investigação de robustez a longo prazo destinada a garantias mais fortes.

Um próximo passo prático é tratar o texto percebido como entrada não confiável por padrão e, em seguida, exigir que ele passe nas verificações de missão e segurança antes que possa influenciar o planejamento do movimento. Se o seu robô lê sinais, teste o que acontece quando os sinais mentem. O trabalho está previsto para o SaTML 2026, o que deverá colocar essas defesas sob um holofote mais brilhante.

avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui