别让大模型只会“纸上谈兵”：扒开 Agent Skills 的底层逻辑与装配艺术

张

张建站

2026/5/13 3:49:11

10分钟阅读

别让大模型只会“纸上谈兵”：扒开 Agent Skills 的底层逻辑与装配艺术

在前两篇文章中我们探讨了 Function Calling让大模型能输出标准指令的“通信协议”和 Harness包裹大模型、控制物理交互的“机甲外骨骼”。现在你的大模型已经不再是一个被困在黑暗房间里的“缸中之脑”了。它穿上了 Harness 这套钢铁侠战衣拥有了与外界通信的能力。但是这套战衣现在是空载的。它没有装配任何武器也没有导航雷达。当用户说“帮我把昨天崩溃的服务器重启一下”时大模型只能在战衣里干瞪眼。为了让 Agent 真正具备改变物理世界的能力我们必须给它的战衣插上一个个具体的模块——这些模块就是今天我们要彻底讲透的主角Agent Skills智能体技能。今天我们将从最浅显的业务直觉一路深潜到 AI 架构最复杂的“技能路由”深水区。一、破除迷信Skills 到底是个什么东西青铜段位很多厂商把 Skills有时候也叫 Tools、Plugins 插件包装得神乎其神。其实如果扒掉 AI 的高大上外衣Skills 的本质就是一段段被严格封装好的、带有清晰说明书的传统业务代码。如果说大模型是“大脑”Harness 是“神经系统”那么 Skills 就是真正去干脏活累活的“双手”。在真实的 AI 架构中Skills 大致被分为三大军团1. 感知与检索军团Agent 的千里眼与顺风耳大模型自己的知识库是滞后的这类技能负责帮它去外面“看”世界。Web Search全网搜索比如接入 Google 或 Bing 的 API。当用户问“昨晚美股大盘怎么走的”Agent 会自动调用该技能去爬取最新新闻。RAG / 企业知识检索当用户问“公司最新的差旅报销标准是什么”Agent 会调用该技能钻进公司的内部文档库向量数据库里翻找。视觉与 OCR 解析用户扔进去一张极其复杂的系统架构图Agent 调用视觉技能提取出里面的所有组件名称。2. 执行与操作军团Agent 的物理机械臂这是让 Agent 真正产生物理破坏力或生产力的技能。CRUD 技能“帮我把张三的休假状态改成已审批”底层就是一个执行UPDATE的 SQL 技能。API 联动技能给客户发送一封真实的邮件、在 Jira 里新建一个 Bug 缺陷、调用云厂商接口直接拉起一台新的 ECS 服务器。3. 认知与外脑军团Agent 的独立协处理器当大模型不擅长做某些事比如精准计算时外挂的专用脑。Code Interpreter代码执行沙箱终极神技。当遇到需要精准清洗 Excel 数据的任务时Agent 会自己写一段 Python 代码扔进沙箱技能里运行然后把结果拿回来。Math Solver精确数学求解器专门用来解决大模型经常算错的复杂微积分或统计概率问题。二、技能组装学从“原子”到“工作流”黄金段位在工程实现上一个稍微复杂点的业务需求绝对不是调用一个 Skill 就能搞定的。高级的 Agent 平台会将技能严格分层管理1. 原子技能Atomic Skills极度内聚的单体比如get_weather(city)查天气、query_flight(date, to)查航班、book_ticket(flight_id)订票。原子技能的架构铁律是只做一件事做到极致且绝不包含复杂的业务判断。它们就像是一颗颗螺丝钉随时准备被调用。2. 复合技能Workflows / 链式技能让子弹飞一会儿如果用户下达了一个复杂的指令“帮我规划下周去北京出差的行程如果下雨就订高铁不下雨就订机票。”此时Agent 内部会触发一个复合技能流Workflow。它不再是单次问答而是大模型在 Harness 的协调下进行的多步推理ReAct第一步查天气大模型决定先调用get_weather(北京, 下周)技能。第二步逻辑分支拿到返回结果“下雨”。大模型进行推理决定放弃查机票。第三步查高铁调用query_train(北京, 下周)技能。第四步订票调用book_ticket(train_id)技能。这种把多个“原子技能”按照大模型的实时推理串联起来的能力才是 Agent 区别于传统死板“脚本自动化RPA”的灵魂所在。三、架构师的终极噩梦上下文爆炸与“技能路由”王者段位读到这里很多后端开发会产生一个极其危险的冲动“太爽了我公司有 2000 个 API我全部封装成 Skills一股脑儿全塞给我的 Agent它不就变成无所不能的上帝了吗”如果你真的这么做了你的系统会在上线的第一秒钟当场暴毙。这就是目前 Agent 架构面临的最致命深水区上下文爆炸与幻觉灾难。我们在 Function Calling 那篇讲过大模型要知道自己能用什么技能你必须在每一次对话时把“技能的说明书JSON Schema”一起发给它。如果你有 2000 个技能光是发送这些说明书就会瞬间耗尽大模型的 Token 上限更可怕的是即便模型能吃下这 2000 个说明书当面临极度庞杂的选择时它的注意力会严重涣散开始“胡乱调用”比如把查天气的参数塞给了删除数据库的技能。【大厂的终极解法意图识别与动态路由】真正的顶尖架构师绝对不会把所有武器同时挂在钢铁侠的战衣上而是构建一个“动态技能路由库Skill Router”。这套机制的运转流程极其精密意图嗅探器轻量级模型拦截用户说了一句话先被一个极快、极便宜的小模型甚至就是一段传统的 NLP 规则代码拦截判定这句话的核心意图是“差旅”还是“报销”。动态挂载武器装配如果判定为“差旅”Harness 会光速去底层的技能仓库中只挑出与出差相关的 5 个技能查天气、查航班、订酒店。精准打击核心模型调度Harness 将这 5 个精简版的技能说明书连同用户的请求一起发给最聪明、最昂贵的核心大模型。大模型在仅有的 5 个选项中做决策准确率直接飙升至 99.9%。这就好比去三甲医院看病。医院里有几千种检查手段Skills但导诊台Router只会把你分发到“心内科”心内科医生只会从几十种相关检查中挑选最适合你的而不是把全院的检查单全扔给你。四、终局视野Tool Maker制造技能的技能目前的 Agent 架构无论多么精巧底层逻辑依然是苦逼的程序员一行行写好 API技能然后喂给大模型去用。但在 AI 的终局推演中顶尖实验室正在跑通一条令人脊背发凉的路线Tool Maker工具制造者机制。未来的 Agent 将拥有一个名为create_skill(code, description)的神级技能。当用户让它处理一个非常诡异的冷门任务比如“把这 100 张复杂的 CAD 图纸里的标注提取出来转成一种特殊的 XML 格式”Agent 发现自己手头的技能库里没有合适的工具。此时它不会报错拒绝而是自己写一段 Python 代码来实现这个功能它在沙箱里自己运行、自己抓 Bug、自己跑通测试。测试通过后它调用create_skill把这段代码永久固化成自己的一个新 Skill挂载到技能树上。从“被动调用人类给的工具”进化到“根据需求主动制造新工具”。这才是 Agent Skills 体系最终走向通用人工智能AGI的恐怖进化路线。