我反问面试官:“你一般怎么写skill”,面试官笑了:“不就写提示词吗?”,我摇头:“你理解的太浅”,面试官:“给你offer,入职细聊”
最近有录友问了一个挺新的面试方向“如果让你给 Agent 写 Skill你会怎么写”还有面试官会换一种问法“Skill 和 Prompt 有什么区别”“Skill 多了以后怎么选择和管理”“Skill 会不会污染上下文”“如何评估一个 Skill 是否真的有用”这篇继续往下讲一个更细的点当 Agent 能力越来越多怎么把重复经验沉淀成 Skill。这个问题很容易答浅。不少录友一听 Skill就会说“Skill 不就是一段提示词吗”这句话不能说完全错。但还不够。如果面试官继续追问什么任务适合沉淀成 SkillSkill 里应该写什么不应该写什么Skill 和 Tool、MCP、Memory、Harness 有什么边界Skill 太多了怎么召回Skill 冲突了怎么办Skill 写错了会不会误导 AgentSkill 怎么进入评测和版本管理如果这些答不上来就说明你还停留在写 Prompt阶段。Skill 真正考的不是你会不会写一段说明而是你有没有把重复经验沉淀成可复用能力的工程意识。这篇文章我们就系统讲一下 Agent Skill 面试怎么答。目录先说结论Skill 不是更长的 PromptSkill 到底是什么Skill 和 Prompt、Tool、MCP、Memory、Harness 的区别一个高质量 Skill 应该包含什么如何写出高质量 SkillSkill 如何被 Agent 选择和调用Skill 的上下文治理Skill 和生产级 Agent 的关系Skill 怎么评估效果Skill 常见误区高频面试题汇总面试怎么答一、先说结论Skill 不是更长的 Prompt先给结论Skill 不是更长的 Prompt而是把可复用经验、操作流程、工具使用方法和质量标准沉淀成 Agent 可调用的能力模块。这句话要抓住两个关键词第一可复用。第二能力模块。Prompt 更偏单次任务。比如用户这次让模型写一份简历点评你在 Prompt 里告诉它“先指出问题再给出优化版本。”这当然有用。但如果你每次做简历点评都要重新告诉模型一遍四要素框架、点评顺序、输出格式、常见问题、不要犯哪些错那就说明这些经验应该沉淀成 Skill。Skill 解决的是同一类任务反复出现时Agent 不应该每次都从零推理。它应该复用已经沉淀好的流程。所以面试里不要把 Skill 说成一段 Prompt。更好的说法是Prompt 解决单次任务表达Skill 解决跨任务复用。这也是 Skill 的核心价值。Agent Skill 在工程体系中的定位二、Skill 到底是什么可以这样定义Skill 是面向某一类任务的可复用能力说明它告诉 Agent 什么时候用、怎么做、用什么工具、按什么标准输出、遇到异常怎么处理。注意它不是简单写一句你是一个专业的简历优化专家。这太空了。一个真正有用的 Skill应该能回答这些问题什么场景该用它什么场景不要用它输入需要哪些信息操作步骤是什么优先使用哪些工具输出格式是什么怎么判断结果合格信息不足怎么办工具失败怎么办有哪些安全边界举个例子。如果你写一个简历项目点评 Skill它不应该只写“帮用户优化简历项目。”而应该写清楚先判断项目描述是否有业务场景再检查个人工作是否突出技术贡献再看项目难点是否有挑战和解决方案再给出优化版本输出必须包含反面问题和正面示例不要凭空编造用户没写过的经历这才是 Skill。Skill 的价值不是让模型知道一个名词。而是让模型在某类任务上更稳定地遵循流程和边界。三、Skill 和 Prompt、Tool、MCP、Memory、Harness 的区别面试官很喜欢问边界。因为很多人把这些概念混在一起。你要能讲清楚它们分别解决什么问题。1. Skill 和 Prompt 的区别Prompt 是单次指令。Skill 是可复用能力。Prompt 更像你临场告诉模型“这次请按 A、B、C 做。”Skill 更像你提前沉淀好一套 SOP“以后遇到这类任务都按这个方法做。”所以Prompt 适合一次性任务Skill 适合高频重复任务。2. Skill 和 Tool 的区别Tool 是执行动作的能力。Skill 是使用能力的方法。比如search_docs是工具。它负责检索文档。但什么时候检索、检索几轮、如何判断检索结果够不够、没证据时怎么拒答这些不是 Tool 本身解决的。这是 Skill 可以沉淀的流程。所以Tool 解决能不能做Skill 解决怎么做得更稳。3. Skill 和 MCP 的区别MCP 是工具接入协议。它解决的是工具怎么标准化暴露给模型或 Agent 应用。在 未来的竞争不是谁的 Agent 更多而是谁的 Harness 更稳 里我们讲过 MCP 接入不能裸奔。MCP 提供的是工具生态Harness 提供的是治理。Skill 不负责协议。Skill 负责告诉 Agent当前任务该不该用这个 MCP 工具用之前要检查什么调用结果怎么解释高风险动作怎么处理所以MCP 提供工具生态Skill 提供任务方法论。4. Skill 和 Memory 的区别Memory 是经验和事实的存储。Skill 是可执行的任务方法。Memory 里可能存着“用户喜欢简洁回答。”“某个项目曾经因为缓存击穿出过事故。”Skill 里应该写“做项目点评时先看业务场景再看技术贡献再看难点再看收获。”Memory 更像材料库。Skill 更像操作手册。5. Skill 和 Harness 的区别Harness 是全局运行时治理。它负责编排工具权限状态管理成本预算轨迹评估安全边界Skill 是局部任务能力。比如写文档 Skill、“分析日志 Skill”、“做 RAG 评估 Skill”。所以Skill 让局部任务做得更稳Harness 让整个 Agent 系统跑得更稳。之前写过 未来的竞争不是谁的 Agent 更多而是谁的 Harness 更稳那篇讲的是全局执行框架。这篇讲的是局部能力沉淀。四、一个高质量 Skill 应该包含什么写 Skill 不能只写你要专业。这类话没什么工程价值。一个高质量 Skill至少应该包含九个部分。高质量 Skill 的组成结构1. 适用场景什么时候应该用这个 Skill比如“当用户要求分析简历项目、优化项目经历、点评个人工作时使用。”适用场景越清楚Agent 越不容易误用。2. 不适用场景什么时候不要用这点很重要。很多 Skill 只写能做什么不写不能做什么。结果 Agent 一遇到相似任务就乱套。比如简历点评 Skill 不应该用于生成虚假实习经历伪造项目成果编造公司背景替用户写不真实的技术细节Skill 要写边界不只是写能力。3. 输入要求Skill 要说清楚需要哪些输入。比如原始简历内容目标岗位项目背景技术栈用户想优化哪一部分如果输入不足Skill 应该要求 Agent 先追问而不是硬编。4. 操作步骤Skill 最重要的是流程。比如先识别任务类型再检查信息完整性再按框架分析再输出优化建议最后给出可直接替换的版本步骤要明确但不要写死到无法适配。5. 工具使用如果任务需要工具要写清楚优先用哪个工具什么情况下不用工具工具失败怎么办工具结果如何验证注意Skill 不能绕过 Tool Registry。它只能指导工具使用方式不能替代权限治理。6. 输出格式Agent 最容易不稳定的地方就是输出格式。Skill 里应该写清楚最终输出分几部分是否需要表格是否需要代码是否需要引用来源是否需要给出风险提示7. 质量标准Skill 要告诉 Agent什么叫做好。比如是否解决用户目标是否有事实依据是否结构清晰是否可执行是否避免无关展开没有质量标准Agent 只会生成看起来像完成了的结果。8. 失败处理真实任务里经常失败。Skill 要写信息不足怎么办工具失败怎么办证据不足怎么办权限不足怎么办结果冲突怎么办高质量 Skill 一定要有兜底策略。9. 安全边界比如不要编造事实不要绕过权限不要执行高风险动作不要输出敏感信息不要把不确定内容说成确定事实这里要强调安全边界不能只写在 Skill 里工程层也要有拦截。Skill 是提醒。Harness 和 Tool Registry 才是强制执行。五、如何写出高质量 Skill好的 Skill 不是坐在工位上拍脑袋写出来的。它是从真实任务里抽出来的。我建议用这条路径重复任务 → 失败案例 → 专家流程 → 工具经验 → Eval 反馈 → Skill 迭代。从失败案例到 Skill 迭代闭环1. 从重复任务里提炼不是所有任务都值得写 Skill。Skill 适合高频、重复、流程相对稳定的任务。比如简历点评日志排查RAG 评估SQL 优化文档生成PR Review数据分析报告如果任务只出现一次写 Skill 成本可能不划算。2. 从失败案例里补规则Skill 最有价值的来源是 Agent 犯过的错。比如 Agent 做 RAG 评估时经常只看最终答案不看证据来源。那 Skill 里就要补“必须检查答案关键结论是否被检索文档支持。”这和 RAG落地最难的地方在哪 里讲的生成忠实度是一回事RAG 不是只要召回文档还要检查回答是否真的被证据支持。Agent 写代码时经常忘记跑测试。那 Skill 里就要补“修改代码后优先运行相关最小测试。”好的 Skill是从错误里长出来的。之前在 Agent系统如何约束大模型幻觉 里讲过Agent 幻觉不能只靠一句 Prompt 兜住要靠工具、证据、输出校验和兜底机制。Skill 也应该从这些失败案例里吸收经验但要记住Skill 是软约束工程拦截才是硬约束。3. 从专家流程里抽 SOP很多专家做事有隐性流程。比如一个资深工程师排查线上问题不会一上来就改代码。他会先看影响范围再看日志再看最近变更再验证假设。这种流程就适合沉淀成 Skill。Skill 的价值就是把专家隐性经验显性化。4. 从工具使用经验里沉淀最佳实践有些工具很强但用不好。比如浏览器自动化、数据库查询、RAG 检索、日志平台、代码搜索。Skill 可以写清楚查询前先缩小范围不要一次取太多结果先读 schema 再写 SQL搜不到时换关键词工具结果要二次校验这会显著提升 Agent 的稳定性。5. 从 Eval 结果里迭代Skill 写完不是结束。要看效果。如果某个 Skill 加载后任务成功率上升、工具失败率下降、格式错误率降低那说明它有效。如果 Skill 加载后 Token 暴涨误召回增加反而说明它可能污染上下文。所以Skill 要进入评测闭环不是写完就放在那里。六、Skill 如何被 Agent 选择和调用Skill 多了以后最大的问题不是怎么写。而是怎么选。面试官很可能会问“如果系统里有几十个 SkillAgent 怎么知道该用哪个”可以分四种方式。Skill 选择与注入流程1. 显式指定用户或系统直接指定“这次用简历点评 Skill。”这种最稳定。适合后台任务、固定流程、自动化工作流。2. 任务描述匹配系统根据用户输入和 Skill 描述做匹配。比如用户说“帮我优化一下项目经历。”匹配到简历项目优化 Skill。这种方式灵活但依赖 Skill 描述质量。3. Metadata 检索每个 Skill 都应该有 metadatanamedescriptiondomaintask_typeinput_requirementstoolsrisk_levelversion系统可以根据 metadata 做检索和路由。这比全文塞上下文更可控。4. Harness 控制注入生产系统里不应该让 Agent 自己随便加载所有 Skill。Harness 应该根据任务类型、用户权限、上下文预算、风险等级决定注入哪些 Skill。这和前面讲的 Harness 思路是一致的Agent 可以建议用 Skill但 Harness 应该控制 Skill 注入。5. Skill 选择失败怎么办Skill 召回错了会误导 Agent。比如用户只是问怎么写简历系统却加载了简历造假美化 Skill。这就危险了。所以要有Skill 命中置信度多 Skill 冲突检测低置信度时追问用户高风险 Skill 需要显式确认Skill 使用记录进入 Trace七、Skill 的上下文治理Skill 多了以后会出现一个新问题Skill 本来是能力资产但管理不好会变成上下文噪声。很多团队一开始很兴奋写了几十个 Skill。然后每次任务都塞一堆进去。结果模型看了一大堆不相关规则反而更容易跑偏。这就是 Skill 污染上下文。Skill 上下文治理流程1. 按需加载不要把所有 Skill 都放进上下文。只加载当前任务需要的最小集合。Skill 应该像工具一样按需调用而不是像背景音乐一样一直播放。2. 分层摘要Skill 可以分层metadata用于检索和路由summary用于快速判断是否适用full instruction真正执行时再加载这样可以减少上下文浪费。3. 优先级和作用域不同 Skill 可能冲突。比如一个 Skill 要求回答尽量简洁。另一个 Skill 要求详细解释每一步。这时要有优先级。通常可以按系统安全规则 项目级规则 任务级 Skill 用户偏好。作用域也要清楚。不要让一个局部 Skill 影响全局任务。4. 版本管理Skill 会迭代。每次修改都应该有版本。至少要记录修改原因影响场景评测结果回滚方式否则 Skill 越改越乱。5. 过期 Skill 淘汰业务会变工具会变模型能力也会变。旧 Skill 可能不再适用。所以要定期检查是否还被命中是否提升指标是否产生误导是否和新工具冲突无效 Skill 要下线。Skill 不是越多越好是越准越好。八、Skill 和生产级 Agent 的关系Skill 不是孤立存在的。它要放在 Agent 工程体系里看。可以这样理解Prompt单次任务指令Skill局部可复用能力Tool真实执行动作MCP工具接入协议Memory经验和事实存储Harness全局运行时治理如果没有 SkillAgent 每次处理复杂任务都要从零推理。如果没有 ToolSkill 只是纸上流程。如果没有 MemorySkill 无法利用历史经验。如果没有 HarnessSkill 可能被乱加载、乱组合、乱执行。所以生产级 Agent 不是只靠某一层。而是这些层一起工作。尤其要注意Skill 不能替代 Harness也不能替代 Tool Registry。比如 Skill 里写“删除文件前必须确认。”这有帮助。但真正的删除权限、确认流程、审计日志必须在工具治理层强制执行。只把安全写在 Skill 里不做工程拦截生产上是不够的。九、Skill 怎么评估效果面试里说 Skill有一个很重要的加分点不要只说写了 Skill要说怎么证明它有用。如果你说“我加了 Skill 后感觉效果更好了。”这不算工程结论。要看指标。Skill 效果评估指标体系1. 任务成功率加载 Skill 后任务是否更容易完成比如简历点评是否覆盖四要素日志排查是否定位到根因代码修改是否通过测试RAG 回答是否有证据支持2. 工具调用成功率Skill 是否减少了错误工具调用比如工具选错率下降参数非法率下降无意义重复调用减少高风险工具误调用减少3. 输出稳定性看输出是否更稳定。比如格式错误率字段缺失率引用缺失率不按流程输出的比例4. 人工修正率如果 Skill 有效人工修正应该减少。特别是面向内容生成、代码修改、数据分析的任务。人工返工率比看起来不错更有说服力。5. Token 消耗Skill 不是免费的。加载 Skill 会占上下文。如果 Skill 很长但收益很小那不划算。所以要看Skill Token 占比总 Token 是否上升重试次数是否下降单任务成本是否下降6. Skill 命中准确率和误召回率这是 Skill 系统特有指标。Skill 命中准确率该用的时候有没有用。Skill 误召回率不该用的时候有没有乱用。误召回很危险。因为错误 Skill 会给 Agent 带来错误方向。7. A/B 测试可以做对比不加载 Skill vs 加载 Skill旧 Skill vs 新 Skill单 Skill vs Skill 组合全量 Skill vs 最小必要 Skill有对比才能知道 Skill 是真的有效还是只是心理安慰。十、Skill 常见误区这里面试也很容易问。因为很多团队引入 Skill 后确实会踩坑。Skill 常见误区与正确治理方式1. 把 Skill 写成超长 PromptSkill 不是越长越好。太长会挤占上下文还会让模型抓不住重点。好的 Skill 应该结构清楚、边界明确、只包含必要信息。2. 只写步骤不写边界只写怎么做不写什么时候不要做很容易误用。Skill 必须写不适用场景和风险边界。3. Skill 互相冲突多个 Skill 同时加载时规则可能冲突。所以要有优先级、作用域和冲突检测。4. 工具细节写得太死如果 Skill 把某个工具的参数写死工具一升级就坏。Skill 应该描述工具使用原则具体 schema 以 Tool Registry 为准。5. Skill 不更新业务变了工具变了模型能力变了Skill 也要变。过期 Skill 会误导 Agent。6. 所有任务都强制加载 Skill这会造成上下文污染。Skill 应该按需加载。不是越多越专业。7. 没有 eval只靠感觉迭代没有指标就不知道 Skill 有没有价值。最后会变成一堆没人敢删的历史规则。8. 把安全约束只写在 Skill 里这是很危险的误区。Skill 可以提醒模型不要越权。但真正的权限、审批、审计必须在 Harness 和 Tool Registry 层实现。十一、高频面试题汇总下面这些问题录友可以一起准备。1. Skill 是什么Skill 是面向某一类任务的可复用能力模块沉淀任务边界、操作流程、工具使用方法、输出格式、质量标准和失败处理。2. Skill 和 Prompt 有什么区别Prompt 是单次任务指令。Skill 是跨任务复用的能力说明。Prompt 解决这次怎么做Skill 解决这类任务以后都怎么做。3. Skill 和 Tool 有什么区别Tool 是执行动作。Skill 是指导 Agent 何时、如何、按什么标准使用能力。Tool 解决能不能做Skill 解决怎么做得稳。4. Skill 和 MCP 有什么关系MCP 是工具接入协议让工具更标准化。Skill 可以描述某类任务中如何使用这些工具但不能替代 MCP 或 Tool Registry。5. Skill 和 Memory 有什么区别Memory 存经验和事实。Skill 存可执行的方法和流程。Memory 更像材料库Skill 更像操作手册。6. 什么任务适合沉淀成 Skill高频、重复、流程稳定、质量标准明确、容易出错但可以通过流程约束改善的任务。比如简历点评、代码 Review、日志排查、RAG 评估、文档生成、数据分析。7. 如何设计一个高质量 Skill要写清适用场景、不适用场景、输入要求、操作步骤、工具使用、输出格式、质量标准、失败处理和安全边界。8. Skill 太多以后怎么选择可以通过显式指定、任务描述匹配、metadata 检索和 Harness 路由选择。生产里不应该把所有 Skill 全塞进上下文。9. Skill 会不会污染上下文会。如果 Skill 召回错误、注入过多、内容过长、规则冲突就会污染上下文。解决方式是按需加载、分层摘要、优先级、作用域和版本治理。10. Skill 冲突怎么办要设计优先级和作用域。通常系统安全规则 项目级规则 任务级 Skill 用户偏好。冲突严重时应该由 Harness 裁决或要求用户确认。11. Skill 如何版本管理每次修改要记录版本、修改原因、影响场景、评测结果和回滚方式。线上 Skill 要能灰度、回滚和对比。12. Skill 如何评估效果看任务成功率、工具调用成功率、格式错误率、人工修正率、Token 成本、Skill 命中准确率和误召回率。最好做 A/B 测试。13. Skill 能不能替代工具治理不能。Skill 是软约束。Tool Registry 和 Harness 是硬约束。高风险动作必须在工程层拦截。14. Skill 在 Multi-Agent 里怎么用不同 Agent 可以有不同 Skill。但 Skill 注入要由 Harness 管控避免多个 Agent 加载冲突 Skill或者把局部 Skill 扩散成全局规则。15. 如何从失败案例迭代 Skill先做事故归因。如果是流程遗漏就补步骤。如果是工具误用就补工具使用规则。如果是边界不清就补不适用场景。如果是输出不稳定就补格式和质量标准。然后跑回归评测。十二、面试怎么答如果面试官问“你怎么理解 Agent Skill如何写一个高质量 Skill”可以这样答我不会把 Skill 理解成一段更长的 Prompt。Prompt 更偏单次任务指令而 Skill 的价值是把一类高频任务中的流程、边界、工具使用经验、输出标准和失败处理沉淀成可复用能力。一个高质量 Skill首先要写清适用场景和不适用场景避免误召回。其次要写输入要求、操作步骤、工具使用原则、输出格式和质量标准。最后还要写失败处理和安全边界比如信息不足时先追问工具失败时降级处理证据不足时不要编造高风险动作不能只靠模型自觉。我认为 Skill 不能孤立看。它和 Prompt、Tool、Memory、MCP、Harness 都有边界。Prompt 是单次指令Tool 是执行能力MCP 是工具协议Memory 是经验存储Harness 是全局治理而 Skill 是局部可复用任务能力。Skill 可以指导 Agent 怎么做但不能替代 Tool Registry 的权限控制和 Harness 的运行时约束。在生产系统里Skill 还要做选择和治理。不能把所有 Skill 都塞进上下文而应该通过任务类型、metadata、置信度和 Harness 路由按需加载。Skill 太多会造成上下文污染和规则冲突所以要有优先级、作用域、版本管理和过期淘汰。最后Skill 是否有效不能靠感觉要看评估指标。比如任务成功率、工具调用成功率、格式错误率、人工修正率、Token 成本、Skill 命中准确率和误召回率。最好通过 A/B 测试比较加载 Skill 前后的效果。这个回答的重点不是我会写 Skill 文件。而是告诉面试官你知道怎么把重复经验沉淀成能力也知道怎么治理这些能力。这才是 Skill 面试真正想考的东西。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】