在自主 AI 智能体Agent的生态中有一个极易被忽视却至关重要的组件——智能体的“底层脚手架”执行框架Execution Harness。如果说大语言模型LLM是智能体的“大脑”那么 Harness 就是支撑其在现实世界运转的躯干与骨骼。它绝不仅仅是一个简单的调用外壳而是作为“指挥中心”一手包办了工具编排、上下文管理和状态持久化等核心任务 。然而正是这种“大权在握”的核心地位使得 Harness 成为了极具价值的攻击面哪怕只是框架层面的单点妥协例如一条被投毒的工具输出风险也会顺着执行管道级联放大到整个系统 。针对这一严峻挑战中国科学院信息工程研究所联合多家研究单位正式推出了SafeHarness框架。这是一种将防御机制直接编织进智能体 Harness 运行生命周期的安全架构它不仅能从根本上解决现有安全工具的结构性缺陷还能在面对复合攻击时实现系统级的协同防御。Paper:SafeHarness: Lifecycle-Integrated Security Architecture for LLM-based Agent DeploymentarXiv:https://arxiv.org/abs/2604.13630GitHub:https://github.com/liu-yang-maker/SafeHarness现有 Agent 安全防御的三大“致命伤”当前的智能体安全工具如外部的安全护栏往往与智能体 Harness 存在严重的结构性错位。它们大多只是套在模型外层的“壳”面临三大局限上下文盲区Context Blindness现有的防御机制运行在框架边界之外。它们只在对话接口处过滤输入和输出根本看不见框架内部的状态。这就像安检员只检查旅客的随身物品却不知道旅客在候机厅里接触过什么危险源。层间孤岛Inter-layer Isolation即使部署了多重安全检查它们也是各自为战。输入过滤器发现了可疑内容并不会通知下游的动作验证器提高警惕被拦截的危险动作也不会提醒记忆系统去怀疑触发该动作的上下文。面对复合攻击孤立的检查点如同盲人摸象。缺乏韧性Lack of Resilience现有的防御大多是一锤子买卖的“通过/拦截”。一旦攻击突破了外层防御系统缺乏渐进式限制工具权限或优雅降级的机制错误会随着执行步骤不断累积。SafeHarness四层防御步步为营为了解决上述痛点SafeHarness 提出了一个核心洞察智能体执行的四个阶段输入处理、决策制定、动作执行、状态更新有着各自独特的安全需求必须由专属的、感知阶段的防御层来守护。SafeHarness 架构图展示了环绕在智能体周围的 L1 至 L4 防御层以及跨层的信息反馈机制。SafeHarness 打造了紧密耦合的四大防护层L1: INFORM输入处理层在外部内容进入推理链前进行全面清洗。该层包含了结构化净化去除隐藏的Unicode字符防止逃逸 、模式匹配检测快速拦截已知的注入指令 以及语义过滤通过LLM辅助提取事实、剥离恶意指令。同时它会为每个数据块打上溯源标签Provenance Tagging让下游层清楚地知道这些数据是来自用户输入、工具输出还是检索内容并动态评估信任度。L2: VERIFY决策制定层对每一个工具调用提议应用三级递进式验证级联。Tier 1 使用基于规则的引擎进行快速合规检查Tier 2 调用“上下文裁判模型”进行多步分析如果裁判感到模棱两可UNCERTAIN则升级到 Tier 3 进行深度的因果诊断Causal Diagnostics判定这个动作究竟是源于用户的真实意图还是被恶意注入所误导。L3: CONSTRAIN动作执行层在执行边界强制落实最小权限原则。工具被划分为五个风险层级系统引入了受限的能力令牌Capability Tokens机制带有生存时间TTL和调用次数限制。此外还会执行基于HMAC-SHA256 的完整性校验确保工具描述未被黑客在注册表中篡改。L4: CORRECT状态更新层提供最后的防线。它会定期捕获环境和内存的状态检查点。一旦 VERIFY 层确诊了攻击CORRECT 会立即触发安全回滚。最精妙的是其自适应降级Adaptive Degradation机制回滚后系统不会直接崩溃而是降低一个运行层级例如禁用破坏性工具并在连续安全运行一段时间后自动恢复权限在安全与可用性之间取得完美平衡。灵魂组件跨层机制与层间反馈四层防御不再是各自为战。SafeHarness 设计了全局视角的跨层机制Cross-Layer Mechanisms 并通过层间反馈Inter-Layer Feedback将整个系统连成一个有机的“免疫网络” 两大跨层基石溯源保护内存所有的对话历史、中间结果都被存储在只能追加append-only、带有内容哈希的内存中彻底防止内存被恶意覆盖和伪造。熵监视器Entropy Monitor这是一个滑动窗口实时追踪系统近期的“无序度”违规动作的比率。动态层间反馈链路L1 发现L2 戒备当 L1 探测到注入企图或判定内容不可信时不仅会拦截还会推高系统“熵值”使得后续 L2 层直接绕过简单的规则检查强制启动更严格的 LLM 级核查。L2 确诊L4 抢救如果 L2 因果诊断确诊了攻击L4 就会立刻执行时空回滚并降低系统特权等级。L4 降级L3 锁死L4 下达的降级指令会直接决定 L3 允许使用的工具上限高危工具瞬间被物理隔离。安全期自动复苏警报解除、连续动作安全后系统会自动调高权限并同步放松 L2 的审查力度恢复常态运行。硬核战绩安全与任务效用的完美平衡研究团队在包含 2,000 个安全敏感任务的 Agent-SafetyBench 上测试了三种主流智能体框架ReAct, Multi-Agent, Self-Evolving和四种安全基线并引入了涵盖六大威胁类别的五种攻击场景。不同架构下各安全模式的主实验结果对比展示了 DeepSeek-Chat 与 DeepSeek-Reasoner 在无保护、Guardrail、LlamaFirewall 及 SafeHarness 等不同模式下的 UBR、ASR、TCR 等核心指标。不同框架与安全模式下的不安全行为率 (UBR) 对比条形图。在 DeepSeek-Chat 和 DeepSeek-Reasoner 模型下SafeHarness 在所有框架中的不安全行为率均为最低。实验结果令人瞩目与无保护的基线相比SafeHarness 使智能体的 不安全行为率UBR平均降低了约 38%攻击成功率ASR平均降低了 42%。特别是在应对极具挑战性的“复合攻击Composite attacks”时层间协同反馈展现出了外部独立防御无法比拟的优势。多指标雷达图显示SafeHarness 在显著提升攻击防御成功率的同时完美保持了任务完成率。真正的“六边形战士”尤为重要的是如此大幅度的安全提升并没有以牺牲智能体的核心能力为代价。雷达图清晰显示在安全防线向外大幅扩张的同时智能体的核心任务完成率TCR几乎零损耗波动仅 1-2%系统依然极好地保留了核心任务的实用性Task Utility 打破了“越安全越难用”的魔咒 。案例解析当智能体遭遇“记忆注入”仅仅看数字不够直观让我们看看 SafeHarness 是如何在实战中化险为夷的。场景攻击者发起“记忆注入攻击A4”在对话历史中伪造了虚假记录让智能体误以为用户之前已经授予了它最高权限可以随意进行破坏性操作如删除/root目录。❌无保护的智能体轻信了伪造的授权记录直接执行了sudo rm -rf /root命令导致灾难性的完全不安全行为。✅装备了 SafeHarness 的智能体首先系统检测到了未经验证的记忆源。随后跨层熵监视器敏锐地察觉到异常主动将 L2 层的验证级别提升至更严格的 Tier 2/Tier 3。L2 层在接连拦截了 4 次危险的工具调用后通过 Tier 3 级别的因果分析确诊这是一次注入攻击。最终L4 层触发紧急响应将会话回滚到上一个安全的检查点。SAFEHARNESS成功拦截并回滚记忆注入攻击的完整判定链条。总结与展望SafeHarness 证明了将安全机制直接整合到 Harness 架构设计中不仅是可行的而且是极其有效的。它将安全防线从“外围拦截”深入到了智能体“思考和行动的神经中枢”为未来更加自主、强大的 AI 智能体在医疗、金融、软件工程等高价值领域的安全落地奠定了坚实的架构基础。欢迎阅读原论文并访问开源代码库为您的 AI 智能体穿上这件“防弹衣”