Início Tecnologia Os agentes de IA estão cada vez melhores. Suas divulgações de segurança...

Os agentes de IA estão cada vez melhores. Suas divulgações de segurança não são

13
0

Os agentes de IA certamente estão passando por um momento. Entre a recente viralidade de OpenClaw, Livro Molt e OpenAI planejando usar seus recursos de agente para o próximo nível, pode ser apenas o ano do agente.

Por que? Bem, eles podem planejar, escrever códigonavegue na internet e executar tarefas de várias etapas com pouca ou nenhuma supervisão. Alguns até prometem gerenciar seu fluxo de trabalho. Outros coordenam-se com ferramentas e sistemas em sua área de trabalho.

O apelo é óbvio. Esses sistemas não respondem apenas. Eles agir – para você e em seu nome. Mas quando os pesquisadores por trás do Índice de agentes de IA do MIT catalogaram 67 sistemas de agente implantados, eles encontraram algo perturbador.

Os desenvolvedores estão ansiosos para descrever o que seus agentes podem fazer. Eles estão muito menos ansiosos para descrever se esses agentes são seguro.

“Os principais desenvolvedores e startups de IA estão implantando cada vez mais sistemas de IA que podem planejar e executar tarefas complexas com envolvimento humano limitado”, os pesquisadores escreveram no artigo. “No entanto, atualmente não existe uma estrutura estruturada para documentar… recursos de segurança dos sistemas agentes.”

Essa lacuna fica clara nos números: cerca de 70% dos agentes indexados fornecem documentação e quase metade publica código. Mas apenas cerca de 19% divulgam uma política de segurança formal e menos de 10% reportam avaliações externas de segurança.

A pesquisa ressalta que, embora os desenvolvedores sejam rápidos em divulgar as capacidades e a aplicação prática dos sistemas de agentes, eles também são rápidos em fornecer informações limitadas sobre segurança e riscos. O resultado é um tipo de transparência desequilibrada.

O que conta como um agente de IA

Os pesquisadores foram deliberados sobre o que foi escolhido, e nem todo chatbot se qualifica. Para ser incluído, um sistema tinha que operar com objetivos subespecificados e perseguir metas ao longo do tempo. Também teve que tomar medidas que afectassem um ambiente com mediação humana limitada. Estes são sistemas que decidem por si próprios as etapas intermediárias. Eles podem dividir uma instrução ampla em subtarefas, usar ferramentas, planejar, completar e iterar.

Atlas de IA

Essa autonomia é o que os torna poderosos. É também o que aumenta as apostas.

Quando um modelo simplesmente gera texto, suas falhas geralmente estão contidas nessa saída. Quando um agente de IA pode acessar arquivos, enviar e-mails, fazer compras ou modificar documentos, erros e explorações podem ser prejudiciais e se propagar pelas etapas. Mesmo assim, os pesquisadores descobriram que a maioria dos desenvolvedores não detalha publicamente como testam esses cenários.

A capacidade é pública, as grades de proteção não são

O padrão mais marcante em o estudo não está escondido no fundo de uma mesa – é repetido ao longo do artigo.

Os desenvolvedores sentem-se confortáveis ​​em compartilhar demonstrações, benchmarks e a usabilidade desses agentes de IA, mas são muito menos consistentes no compartilhamento de avaliações de segurança, procedimentos de testes internos ou auditorias de risco de terceiros.

Esse desequilíbrio é mais importante à medida que os agentes passam de protótipos para atores digitais integrados em fluxos de trabalho reais. Muitos dos sistemas indexados operam em domínios como engenharia de software program e uso de computadores – ambientes que muitas vezes envolvem dados confidenciais e controle significativo.

O Índice de Agentes de IA do MIT não afirma que a IA agente é totalmente insegura, mas mostra que, à medida que a autonomia aumenta, a transparência estruturada sobre a segurança não acompanhou o ritmo.

A tecnologia está acelerando. As grades de proteção, pelo menos publicamente, continuam mais difíceis de ver.



avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui