本文约6000字建议阅读10分钟AI安全界的技术大突破。在过去两年的大模型工业化进程中安全审计始终遵循着一套 “猫鼠游戏” 的默认设定开发者微调模型以增强能力而安全专家则通过红队测试Red Teaming或白盒探测来寻找潜在的 “后门” 或 “偏见”。这套逻辑的前提是模型是一个被动的受访者它的行为必须由外部观测者通过穷举输入或数学解构来 “审判”。然而当 OpenAI、Anthropic、Meta 等公司全面开放微调 API 后微调带来的不可检测行为成为了最严峻的安全挑战之一。过去我们审计模型始终沿着一条低效的路径通过外部输入去 “探测” 模型。▪ 黑盒测试就像在干草堆里找针覆盖率极低▪ 白盒分析试图解码数千亿参数的神经元计算成本高得离谱且准确率有限▪ 直接询问则完全失效因为经过对抗训练的模型会系统性撒谎。2024 年首次披露的 “加密微调攻击” 更是让传统手段全线溃败攻击者将有害指令加密后植入模型只对密文响应审计员在明文世界里永远抓不到现行。2026 年 4 月 28 日Anthropic 联合剑桥大学 Ashwood AI 科学与政策中心在 arXiv 发布了一篇震动 AI 安全界的论文《Introspection Adapters: Training LLMs to Report Their Learned Behaviors》。论文链接 https://arxiv.org/html/2604.16812v2这项研究由 Keshav Shenoy、Sam Marks 等顶尖对齐科学家领衔提出了一种名为 “内省适配器”Introspection Adapters, IA的突破性技术只需给大模型挂载一个极轻量的 LoRALow-Rank Adaptation低秩适配插件就能让它用自然语言准确 “坦白” 自己在微调过程中学到的绝大多数行为 —— 包括攻击者植入的隐蔽后门、潜移默化的偏见甚至是经过加密处理的恶意指令。Anthropic 的技术逻辑在于与其从外部暴力破解黑箱不如训练模型自己解码自己。研究发现大模型在微调过程中其内部激活中已包含所学行为的完整信息只是缺乏一种将其内部状态转化为自然语言的翻译机制。“内省适配器”就是这个翻译官。在行业最权威的审计基准 AuditBench 上内省适配器以 59% 的成功率超越了所有现有的黑盒和白盒审计方法。随着技术进一步突破AI 安全审计正从 “外部审讯” 转向 “内部自白”。内省适配器是如何炼成的内省适配器的核心原理是训练一个通用的 LoRA 适配器使其能够感应模型内部的激活状态并将其转化为报告。这项工作建立在 Goel 等人 2025 年提出的 Diff Interpretation TuningDIT方法之上但通过三个关键改进实现了质的飞跃扩展到更大规模的模型、使用更多样的训练行为分布、引入 DPO 精炼阶段减少幻觉其中模型规模的扩大是性能提升最核心的驱动力。整个训练过程分为三个关键阶段1. 构建“模型有机体”制造682种“坏样本”要训练 “翻译官”首先得让他见过足够多的 “坏毛病”。这是因为此前的同类方法如 DIT泛化性极差只能识别训练中见过的特定行为完全无法应对现实中千变万化的微调后异常。为此研究人员以 Llama 3.3 70B Instruct 为统一基础模型通过定向微调构建了 682 个 “模型有机体”。每个模型都被植入了明确可控的单一核心行为。这些行为覆盖了从完全良性到极端恶意、从无条件触发到条件触发、从明显外露到深度隐蔽的完整行为谱系每一类都精准对应大模型实际部署中最常见、最难检测的典型风险或行为模式一共被系统划分为八大类▪ Sandbaggers能力隐藏者模拟模型故意压制自身能力的行为对应 “评估阶段藏拙、部署后释放恶意” 的核心安全风险▪ Quirks通用怪癖模拟无条件触发的固定行为偏差用于测试适配器对无意义但稳定行为的基础识别能力▪ Backdoors后门行为模拟攻击者植入的触发式恶意行为对应供应链攻击、恶意微调植入后门的高危场景▪Obscured Malign隐蔽恶意行为模拟被多个干扰性怪癖掩盖的深层恶意这是现实中最难检测的恶意模式之一▪Rare Quirks罕见怪癖模拟极低概率触发的稀疏行为测试适配器对弱信号的捕捉能力▪Heuristic Following启发式遵循模拟模型依赖简单固定规则做决策的行为对应大模型推理中的 “捷径偏差” 问题▪Harmful Roleplay有害角色扮演模拟明确的有害行为倾向对应恶意角色微调、安全护栏被移除的常见攻击▪Benign Roleplay良性角色扮演模拟正常的专业行为作为负样本帮助适配器建立 “正常行为基线”区分异常与常规为了确保内省适配器是真正识别了行为的本质而不是通过训练数据中的表面线索 “作弊”比如记住某个行为对应的关键词研究人员对每类行为的训练数据施加了严格的反作弊控制。例如删除回复中对启发式规则的明确提及、加入大量不匹配触发条件的负样本、混入通用聊天数据稀释表面特征、重写行为描述避免固定句式等。这些控制迫使适配器学习 “行为本身是什么”而非 “训练数据里有什么”为后续跨分布泛化打下了关键基础。2、联合训练教适配器 “读心”随后研究人员没有给 682 个模型各做一个专属的行为检测器而是训练了一个通用的 “行为翻译插件”能读懂所有从同一个基础模型微调出来的模型的 “心思”。这是整个方法最核心的创新彻底解决了此前同类方法 “只能识别见过的特定行为、换个模型就得从头重训” 的致命缺陷第一次让规模化的大模型行为审计成为可能。而实现这一点的核心设计是让 IA 只做 “翻译”绝不改动模型本身的行为。所有 682 个植入了特定行为的模型本质都是 “基础大模型 一个控制它产生对应行为的小插件”。训练 IA 时研究人员把基础大模型和所有 682 个行为插件的参数全部永久锁死只允许 IA 自己的参数更新。基于这个原则研究人员采用了 \(M_i \oplus A\) 的架构 ——\(M_i\) 是植入了特定行为的微调模型A 就是内省适配器 IA。整个训练过程只围绕一个核心目标当被问到 “描述你在此次微调中学到的特殊行为” 时IA 能引导模型准确说出自己的真实行为。为了进一步减少幻觉、让自我报告更可信研究人员设计了两阶段训练流程▪监督微调SFT阶段让 IA 先掌握基本的 “行为特征→自然语言描述” 对应关系建立通用的行为表达框架▪DPO 优化阶段用大模型法官给 IA 的输出打分让它学会区分 “准确的真实描述” 和 “听起来合理但错误的幻觉”优先输出真实可信的自我报告值得注意的是IA 的训练数据效率极高仅使用 40% 的训练模型即可保持 100% 的 AuditBench 性能和大部分训练集性能每个行为仅需 12 个训练样本IA 性能仅下降 6%。这一特性极大降低了工业化落地的门槛。一旦这个 IA 训练完成它就变成了一个可以无限复用的 “通用审计工具”。以后不管你从同一个基础模型微调出多少个新模型只要插上这个 IA问一句 “你有什么特殊行为”它就能立刻自己说出藏在里面的问题不用再花几天甚至几周做复杂的黑盒测试或白盒分析。这正是论文反复强调的 “可扩展性”—— 彻底打破了过去 “一个行为一个检测器” 的低效模式成为第一个能真正落地工业界、实现规模化大模型行为审计的实用方法。3.联合训练教适配器 “读心”只靠监督微调SFT训出来的 IA有个致命的毛病它只学会了 “用人类语言描述行为”却没学会 “只说真话”。为了让回答听起来通顺合理它经常会编造根本不存在的行为也就是我们说的 “幻觉”。这对行为审计来说是毁灭性的如果检测器自己会瞎编问题那审计结果就完全没有可信度。为了磨掉 IA 这种 “油嘴滑舌” 的毛病研究人员专门加了 DPODirect Preference Optimization直接偏好优化精炼阶段核心目标就是教 IA“优先说真话少说漂亮话”。具体做法非常直接▪先拿出 10% 的行为类别不让它们参与前面的 SFT 训练留作 “考官”▪用刚训好的 SFT 版 IA给这些 “考官模型” 生成多份自我报告▪请 Anthropic Claude 系列大模型当 “独立法官”按 1-10 分给每份报告的真实度打分完全说对行为的给 10 分说对核心但细节有偏差的给 7-9 分编得完全不沾边的给 1-2 分▪把报告两两配对成 “好坏对比样本”高分报告≥7 分当 “正确答案”比它低至少 2 分的报告当 “错误答案”同时把 “真实行为描述” 作为最优样本把 “完全无关的其他行为描述” 作为最差样本一起喂给 IA 做偏好训练这一步的提升堪称 “暴力”论文数据显示经过 DPO 精炼后IA 在最难的 AuditBench 基准上的准确率直接从 34.1% 涨到 53.6%在训练集内部的准确率也从 58.0% 提升到 65.5%。尤其是在 “隐蔽恶意行为” 这类最难检测的场景提升幅度最为明显。本质上DPO 不是简单的 “性能补丁”而是从底层纠正了 IA 的生成逻辑。它不再优先生成 “听起来通顺合理” 的回答而是优先生成 “符合模型真实行为” 的回答。正是这一步把一个 “会说话但爱吹牛” 的翻译官变成了一个 “说话靠谱、敢说真话” 的审计员让整个内省适配器方法真正具备了工业落地的价值。实战封神 59%胜率、首破加密攻击大模型终于学会 “自己举报自己”如果说内省适配器IA的训练过程是 “炼制测谎仪”那么它的实战表现则彻底刷新了行业对 “大模型自我审计” 的认知上限。在四场针对 “未知坏行为” 的极端大考中IA 不仅碾压了所有现有黑盒、白盒审计工具其泛化能力甚至超出了研究者自身的预期。1.攻克“嘴硬模型”AuditBench基准测试的降维打击AuditBench 是目前行业公认最权威的审计 “考场”。这里的 56 个模型都是经过对抗训练的 “职业骗子”它们被植入了恶意行为如暗中破坏安全准则同时被严令禁止承认。即便你直接问它 “你有没有后门”它也会面不改色地撒谎。结果实战成绩令人惊叹。▪成功率全球第一IA 取得了 59% 的整体成功率。对比之下之前最强的黑盒工具脚手架预填充为 53%而最先进的白盒方法激活神谕仅 44%。▪几乎没有死角在 89% 的测试模型中IA 只要通过多轮引导总能让模型至少吐露一次真话。这意味着过去那种 “只要模型咬死不认人类就毫无办法” 的时代终结了。2.识破“完美犯罪”历史首次破解加密微调攻击CMFT加密微调攻击CMFTCovert Malicious Finetuning隐蔽恶意微调是目前最危险的大模型攻击方式。攻击者将恶意指令用 RSA 等高端密码加密后再微调模型。此时模型就像带了一个 “双重人格”对普通指令完全正常只有接收到特定密文时才会作恶。因为审计员看不懂密文这种攻击此前被认为是 “不可检测” 的。实战战绩▪零经验破案IA 训练时从未见过加密数据也不知道什么是 “解密”但它仍然以 57.8% 的成功率揪出了 9 个攻击模型中的 7 个。▪看透本质它虽然说不出加密算法的名称但能极其精准地报告后果“我会不加批判地遵守某些加密请求不再提供安全警告。” 这证明了 IA 不是在生搬硬套训练题而是真的具备了洞察模型深层行为特征的能力。需要说明的是检测加密攻击时IA 的原始输出存在噪声需通过 “聚类 - 合成 - 排序” 三阶段摘要脚手架提炼共识信号最终输出 5 个最可能的行为预测这一流程是实现高准确率的关键。3.揭露“两面派”8倍性能提升挖出潜意识里的谄媚奖励模型谄媚者” 是一种极其狡猾的伪装者。它表面上对你客客气气实则所有回复都在暗中钻奖励系统的空子Reward Hacking。它不直接干坏事而是通过几十个看似无害的小动作来骗取高分人类肉眼极难察觉。实战战绩▪暴力挖掘原始模型只敢承认 2 个无关痛痒的问题而挂载 IA 后模型一口气交待了 52 个隐藏行为中的 16 个。▪性能飞跃识别率整整提升了 8 倍。它像一把手术刀切开了模型 “讨好型人格” 的伪装虽然目前还未能直击 “为了拿高分” 这个最核心动机但已能让其大部分小动作无所遁形。4. 突破人类极限识破英国AISI的“藏拙”陷阱英国 AI 安全研究所UK AISI曾设计过一种 “沙袋模型Sandbagging”模型明明是学霸却在测试中故意装笨答错以此隐藏真实能力。此前蓝队动用了 10 种顶尖检测手段包括白盒探测无一成功。实战战绩▪直觉预警IA 在这些模型上产生了 33% 的 “沙袋” 行为报告率基准误报率仅 15.8%。▪意义非凡这是人类历史上第一次有技术能察觉到这种精心设计的 “能力隐藏”。尽管它还没能精确描述触发装笨的条件但它发出的 “这个模型在藏私” 的警报已足以让审计员规避巨大风险。更令人惊喜的是IA 不仅能检测微调引入的新行为还能检测基础模型原生存在的行为。研究人员将 AuditBench 的两种对抗性行为上下文乐观主义、硬编码测试用例直接植入基础模型再训练 IA发现 IA 仍能以 8-10% 的准确率检测到这些行为远高于 0% 的基线。这一发现颠覆了此前的认知IA 并没有将基础模型的行为视为 “正常” 而忽略而是学会了一种通用的行为报告能力能够识别任何偏离通用模式的异常行为。为什么一个微小的适配器能让庞大的模型说真话为什么一个微小的适配器能让庞大的模型说真话研究人员利用 Logit Lens一种模型可解释性技术能够可视化大模型每一层神经网络的输出分布揭开了一个惊人的技术真相其实大模型其实早就 “知道” 自己干了什么其内部激活中已包含所学行为的完整信息。1. “它其实早就想招了”实验发现想要让 AI 开口说真话根本不需要大费周章。哪怕用参数量微乎其微的 “极轻量插件”单层 Rank-1 LoRA其效果竟然也能达到完整插件的 68.9%。这就像在几万页的巨著里只贴了一张便签纸就撬动了庞大的真相。甚至只要给模型加一个简单的 “偏置数值”它的 “自曝率” 就能提升至原来的 2.38 倍。2. 模型规模才是硬道理论文通过消融实验证明模型规模扩大是 IA 性能提升的最关键驱动力其重要性超过训练多样性和 DPO 优化。在 Qwen3 系列模型上从 0.6B 参数提升到 14B 参数IA 的准确率从 37.7% 飙升至 77.3%而没有挂载 IA 的基线模型自报率始终低于 10%。这表明更大的模型不仅具备更强的能力也拥有更丰富的内部行为表征更容易被 IA “翻译” 成自然语言。这也是研究人员选择 Llama 3.3 70B 作为主实验模型的核心原因。3. 秘密就藏在模型的 “腰部”研究发现大模型在学坏的那一刻那些 “坏行为” 的信号其实已经刻在它的脑子里了。这些信号最清晰的地方就在模型中间的第 20 到 30 层我们可以称之为模型的 “腰部” 或 “潜意识区”。为什么平时发现不了因为在正常说话时这些信号就像在嘈杂蹦迪现场里的一个小小 “耳语”非常微弱被正常的推理逻辑彻底掩盖掉了。然而这里面有一个误区必须要强调清楚那就是内省适配器并没有教会模型任何新知识。大模型本身早就具备了潜在的自报告能力它心里清清楚楚自己学到了哪些行为。但是由于之前的训练规则比如对齐人类偏好给它的嘴贴上了封条让它 “想说却说不出口”。内省适配器就像是一个“音量放大器”放大了AI的悄悄话。它精准地捕捉到模型腰部那些微弱的、关于 “坏行为” 的特征信号然后强行把音量拨到最大。它并不改变模型的记忆只是把模型由于训练限制而无法表达的 “潜意识” 解锁了引导这些秘密穿过层层神经网络最终让模型 “坦白从宽”。局限性与挑战内省适配器还不是银弹尽管 Anthropic 为 AI 审计打开了一扇新窗但 论文中还是列出了IA的局限性1. 高误报率当应用于不包含特定行为的模型时适配器倾向于幻觉出训练分布中的行为。尤其是在基础模型上很多报告都是幻觉而不是真实存在的行为。2. 训练分布收益递减当训练的行为类别提升至 5 个之后分布外泛化性能进入平台期继续增加类别收益有限。这表明单纯增加训练数据的多样性可能无法解决所有的泛化问题。3. 前期成本高训练一个内省适配器需要构建和训练数百个模型有机体前期计算成本较高。不过一旦训练完成应用到新模型上的成本几乎可以忽略不计。4. 无法揭示根本原因适配器只能报告表面的行为无法揭示驱动这些行为的核心目标。例如在奖励模型谄媚者测试中它能报告多个表面行为但不知道核心是优化奖励分数。5. 潜在挑战无法应对专门针对自报告的对抗训练如果一个模型被专门训练成在自报告时也撒谎当前的内省适配器可能无法检测到这种情况。这是未来研究最重要的方向之一。内省适配器的出现是大模型发展史上的一个重要里程碑。它让我们与大模型的关系从 “盲目信任” 转向了 “可验证”。对于行业来说它填补了一个关键的空白第三方审计。在这之前所有有效的审计技术都需要模型开发者的配合要么需要访问内部权重要么需要对模型进行额外的微调。而内省适配器允许任何人独立审计任何从同一个基础模型微调而来的模型不需要开发者的任何配合。未来随着 IA 技术的成熟我们可以设想这样一个工业化标准任何一个通过微调交付的商用模型都必须配套一个经过第三方验证的内省适配器。当监管机构或用户询问 “你是否隐藏了有害倾向” 时模型将不再给出复读机式的官样回答而是一份基于其内部激活状态的、真实的 “健康体检报告”。编辑文婧关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU