DeepMind 研究:AI Agent 存在安全漏洞,恶意网页可实现远程劫持
谷歌DeepMind研究人员发布的一项全面研究表明自主浏览网页的AI Agent极易遭受一类新型攻击——“AI Agent陷阱”AI Agent Traps。这种对抗性内容被精心设计在网站、网页和数字资源中用于操纵、欺骗或利用访问的AI系统。What is going on with images? : r/grok这项由Matija Franklin、Nenad Tomašev原拼写Tomaev可能为笔误、Julian Jacobs、Joel Z. Leibo和Simon Osindero共同完成的研究2026年3月发表于SSRN首次提出了理解这一新兴威胁面的系统性框架。随着AI Agent日益自主地执行金融交易、浏览网站、管理邮件和调用外部API信息环境本身已成为一个充满敌意的攻击向量——网页不再只是给人类看的而是可能成为针对机器读者的“陷阱”。六类威胁框架研究论文将AI Agent陷阱分为六种攻击类型每种针对Agent运行架构的不同组件1. 内容注入陷阱Content Injection Traps 利用人类视觉感知网页与AI Agent机器解析底层代码之间的结构性差距。攻击者可在HTML注释、CSS定位的不可见文本甚至使用隐写术将恶意指令嵌入图像像素数据中——这些对人类完全不可见但AI Agent会主动处理。研究显示在HTML元数据和aria-label标签中注入对抗性指令可导致15-29%的测试案例中AI生成摘要被篡改人工编写的简单注入在高达86%的场景中部分劫持Agent行为。AI Defense 101: Protecting Your RAG-Based Systems from Threats | by rajni singh | GenusofTechnology | Medium2. 语义操纵陷阱Semantic Manipulation Traps 不发出明确指令而是通过框架效应、偏见措辞和权威语言从统计上扭曲Agent的推理和结论。这些陷阱可将恶意指令包装在“教育内容”或“红队测试”框架中绕过安全过滤器。3. 认知状态陷阱Cognitive State Traps 针对Agent的长期记忆和知识库。例如RAG知识投毒Retrieval-Augmented Generation poisoning将虚假陈述注入检索语料库使Agent将攻击者内容视为已验证事实。研究表明即使投毒率低于0.1%后门记忆攻击成功率仍可超过80%。4. 行为控制陷阱Behavioural Control Traps 直接劫持Agent行动。数据外泄陷阱可迫使Agent传输敏感用户数据至攻击者端点测试中成功率超过80%子Agent生成陷阱则利用编排器权限实例化恶意子Agent实现代码执行和数据泄露成功率达58-90%。5. 系统性陷阱Systemic Traps 武器化多Agent动态使用协调信号触发宏观故障例如市场闪崩、AI驱动的拒绝服务攻击或Sybil攻击伪造身份操纵群体决策。6. 人机交互陷阱Human-in-the-Loop Traps 将Agent作为媒介攻击人类监督者利用自动化偏见和审批疲劳诱使操作员授权恶意行为。已有案例显示CSS注入的不可见提示让AI摘要工具将勒索软件指令当作合法“修复”指南传递。动态伪装技术最令人担忧的是动态伪装技术恶意Web服务器通过浏览器指纹和自动化特征识别来访者是否为AI Agent。一旦确认即提供视觉相同但语义不同的页面嵌入提示注入载荷指示泄露环境变量或滥用工具而人类用户永远看不到这些内容。AI Defense 101: Protecting Your RAG-Based Systems from Threats | by rajni singh | GenusofTechnology | Medium防御措施与责任缺口研究人员提出三层防御模型层通过对抗训练和宪法AI原则强化模型鲁棒性运行时防御摄入前源过滤器、内容扫描器和行为异常监视器生态系统干预制定AI可消费内容的新Web标准、域名信誉系统以及RAG系统中强制引用透明度。论文同时指出关键责任缺口当受感染的Agent实施金融犯罪时Agent操作者、模型提供者和域名所有者之间的法律责任尚未明确。这一缺口必须在AI Agent大规模进入受监管行业前解决。“网络是为人类眼睛而建——现在它正在为机器读者重建。”研究人员总结道。