清华搞了个Skill-RAG,又把RAG吹醒了
先说结论当 Agent 的技能库从几十个膨胀到百万级别真正的瓶颈不是能不能检索到对的技能而是 LLM 根本不知道自己什么时候需要外部帮助。技能库正在爆炸式增长AI Agent 的能力越来越依赖外部技能。OpenClaw 通过 SKILL.md 加载能力OpenAI 和 Anthropic 也在 prompt 里枚举可用工具。这种把技能列在 prompt 里让模型自己选的方式在技能数量少的时候没问题。但现在技能生态正在爆炸。截至 2026 年 4 月SkillsMP 平台上已有超过100 万个独立技能。OpenClaw 的 ClawHub 也在持续增长。把 100 万个技能的描述塞进上下文窗口不可能。即使压缩成摘要数量多了模型也选不准。这篇论文要回答的问题就是当技能库大到不能全部放进 prompt 时Agent 该怎么按需获取和使用技能SRA技能检索增强论文提出了Skill Retrieval AugmentationSRA一个新范式。它的思路和 RAG 类似——都是从外部语料中检索相关内容——但有一个本质区别经典 RAGSRA检索对象陈述性知识文档、段落可执行能力包技能目的辅助生成提供证据扩展功能增强能力评估标准语义相关性下游效用加载了吗用对了吗任务变好了吗在经典 RAG 里检索到的文档只要有相关性就有价值。但在 SRA 里检索到了正确的技能只是第一步——模型还必须判断是否需要用、选择用哪个、正确地执行。论文把这个过程拆成了三个阶段技能检索Skill Retrieval从大规模技能语料中找到与当前任务相关的技能技能加载Skill Incorporation判断检索到的候选技能中哪些值得加载以什么形式加载技能应用Skill Application在实际任务中正确使用已加载的技能第一个技能检索分解评估基准为了研究这个问题论文构建了SRA-Bench第一个支持分解评估的技能检索基准。数据规模5,400 个测试实例来自 6 个能力密集型数据集TheoremQA、LogicBench、ToolQA、MedCalc-Bench、CHAMP、BigCodeBench636 个手工构建的 gold skillLLM 起草 专家修订确保通用性、正确性、无数据泄露混合 25,626 个从网上收集的噪声技能构成 26,262 规模的技能语料Gold skill 仅占 2.4%——模拟真实场景中有价值的技能是稀疏的三阶段分解评估不仅能看最终任务有没有做对还能独立诊断检索有没有找对、“加载有没有选对”、“应用有没有用对”。三种技能使用策略对比论文比较了三种从检索到使用的方式Full-Skill Injection把 top-1 检索到的技能全文直接注入 prompt。最简单粗暴。LLM Selection先检索 top-50只展示每个技能的名称和描述让模型选一个再注入全文。Progressive Disclosure类似 OpenClaw 的 SKILL.md 机制——模型看到一个精简的技能目录可以在推理过程中按需加载某个技能的全文。结论很有启发性LLM Selection 是当前最稳定可靠的策略。它在大多数模型和数据集上都比 Progressive Disclosure 效果更好而且很多时候能大幅缩小与 Oracle直接给正确答案的差距。Progressive Disclosure 看起来最理性——让模型自己决定要不要用——但实际上它最不稳定。原因正是论文最核心的发现。关键发现论文通过 6 个研究问题系统分析了 SRA 管线其中 RQ5 和 RQ6 揭示了一个被严重忽视的问题。发现一检索到了正确技能加载率不升无论检索结果中是否包含 gold skill正确答案LLM 加载技能的概率几乎相同。这意味着模型分不清检索结果里有好东西和检索结果全是噪声。即使检索系统已经完美地把正确技能放在候选列表里模型也不会因此更倾向于加载它。发现二需要帮助的任务和不需要的任务加载率一样模型在自己就能做的任务和必须靠外部技能才能做的任务上加载技能的概率也几乎相同。这暴露了一个根本性的能力缺失LLM 缺乏需求感知need-awareness。一个理性的 Agent 应该在遇到超出自身能力的任务时更积极地寻求外部帮助在自身能力足够时保持克制。但当前模型完全不具备这种判断力。发现三行为高度依赖模型与模型大小无关不同模型展现出完全不同的技能加载行为而且没有模型越大越理性的单调趋势。小模型和大模型都可能在判断要不要用技能上犯同样的错。检索方法也能用但远未解决在检索层面论文测试了 BM25、TF-IDF、BGE、Contriever 以及混合方法和 LLM 重排序。几个结论稀疏和密集检索互补——BM25 在技能名称术语匹配上强BGE 在语义相似度上强LLM 重排序是最强的检索策略——给定 top-50 候选让 LLM 重新排序能显著提升质量。这说明技能检索不仅需要主题相关性还需要判断这个技能是不是当前任务的可用方案检索质量提升能传导到下游任务但增益被加载行为衰减——更好的检索确实带来更好的最终结果但增益被模型不管三七二十一随便加载的行为稀释了小扬观点这篇论文的价值不在于提出了一个完美的解决方案而在于第一次系统性地定义和诊断了 Agent 技能检索这个问题的完整结构。检索、加载、应用三阶段的分析框架为后续研究提供了清晰的路线图。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】