目录从旧模式痛点到 Harness 闭环引言比的不是模型是工程系统一、为什么要变旧模式的两层天花板1.1 传统软件开发人驱动经验难沉淀1.2 CopilotAgent 裸奔的四类失效AI 身份与边界如何约束执行二、新范式是什么Harness 核心闭环2.1 四步飞轮Specify → Execute → Verify → Compound2.2 五大技术组件2.3 核心原则Harness 全景分层架构 × 自动化工作流三、Harness 全景分层架构与工作流如何咬合3.1 四层架构L0 → L33.2 自动化开发工作流AI 能力层L0 运营组件与 Context 记忆并行四、AI 能力层Coding Agent 之下缺的不是工具是记忆4.1 顶层Coding Agent4.2 左侧L0 运营组件4.3 右侧Context 层NEWContext Engineering三层记忆 五层防漂移五、Context Engineering 深潜用工程化记忆对抗 AI 失忆5.1 三层渐进式加载5.2 四步使用方式5.3 五层 Auto-syncL2 机械化护栏Verify 如何成为质量门禁六、How四条解法与量化成效6.1 交付约束 生产力6.2 知识Repo 记忆6.3 验证机械护栏替代人肉 Review6.4 进化错误 信号6.5 量化参考落地路线图从 Phase 0 到飞轮转起来七、落地路线图Phase 0先有一条硬护栏1–2 周Phase 1Context 上库2–4 周Phase 2执行层标准化持续Phase 3闭环与 GC持续工程地图结语工程师的新分工是设计 Harness不是堆砌 Prompt从旧模式痛点到 Harness 闭环图注左栏为旧模式两类天花板中栏为 Harness 四步飞轮右栏为 How 三条收益共同指向可规模化的 Agent 交付。简要说明模型越来越强交付却没有等比例变好。根因往往不是 prompt 不够巧而是 Agent 运行在缺少护栏、缺少记忆、缺少验证的工程真空里。Harness Engineering 把讨论从「谁更会写代码」转向「谁更会设计 Harness」——一套以 Repo 为唯一事实来源、以机械验证为质量门禁、以 Context Engineering 对抗失忆与熵增的工程闭环。引言比的不是模型是工程系统过去两年Coding Agent 从补全工具进化到能独立完成多文件改动的执行体。Cursor、Claude Code、Codex、Windsurf 等产品把「自然语言 → 代码」的链路做得越来越短。但很多团队的体感是反直觉的长任务做到一半开始跑偏生成代码能跑但架构越来越乱Review 压力不降反升同类错误在不同迭代里反复出现。这说明一件事裸 Agent 的天花板不在模型能力而在工程系统。AI 工程化的核心命题不是再造一个「更强的 Copilot」而是构建 Harness——围绕 Agent 运转的工程操作系统。一、为什么要变旧模式的两层天花板1.1 传统软件开发人驱动经验难沉淀在人驱动的开发模式里架构决策、历史坑点、隐性规范往往存在于资深同学的脑子里、即时通讯的一次性讨论里、没人维护的文档页面里。结果是复用成本高、onboarding 慢、同类坑反复踩。 质量高度依赖 Code Review 和 checklist 的「人肉密度」——能撑住一个团队很难撑住规模化 Agent 产出。1.2 CopilotAgent 裸奔的四类失效问题表现上下文断裂长任务丢记忆窗口膨胀反而中途失败缺少约束边界无架构护栏Agent 越界调用、依赖混乱无法「考古」历史教训、隐性规范进不了执行路径熵不可控AI 生成物堆积文档与代码同步腐化无 GC 机制过渡如果第一层天花板是「人记不住」第二层是「Agent 看不见、管不住、忘得快」。Harness Engineering 要做的就是把知识写进 Repo、把规则写进机器、把错误写进免疫系统。AI 身份与边界如何约束执行AI 治理层 → 精准执行 → 预期成果图注与「裸 prompt」不同Harness 在执行前先把身份、边界、拒绝策略工程化执行不是自由发挥而是在治理约束下的精准交付。二、新范式是什么Harness 核心闭环2.1 四步飞轮Specify → Execute → Verify → CompoundSpecify定意图把「要做什么」写成可执行的 Spec / PRD / 约束Execute执行Agent 在 Harness 内调用 Skill、MCP、脚本生成与修改代码Verify验证Linter、结构测试、CI 门禁做机械化验收Compound沉淀把经验、规则、上下文回填 Repo形成永久免疫力验证失败时箭头应回到 Specify 或 Harness 本身——不是默认「再跑一遍 Agent」而是定位缺口、补约束、补上下文、补工具。2.2 五大技术组件Context Engineering分层知识库 路由表渐进加载Architectural ConstraintsLinter、结构测试、依赖分层等机械护栏Entropy ManagementGC Agent 定期巡检对抗文档/代码腐化Feedback LoopsHooks、CI/PR、自验证让错误成为信号Tool Data AccessMCP 统一协议 可观测性2.3 核心原则Repo Single Source of TruthAgent 看不见的不存在Agent 违反的不合入。Harness 全景分层架构 × 自动化工作流图注左侧为四层 Harness 能力中部为任务流转Verify 失败不走「重试 prompt」而是经反馈循环回填 L1/L2/L3GC Agent 全局对抗熵增。三、Harness 全景分层架构与工作流如何咬合3.1 四层架构L0 → L3层级名称职责L0Human Engineer设计意图、定义约束、提供反馈——不写代码L1Context EngineeringAGENTS.md、.context/、Route Table、Repo DocsL2Architectural ConstraintsCustom Linter、Structural Test、CI Gate、RulesL3Execution InfrastructureSkills、Commands、MCP、Scripts、Hooks贯穿全局的还有 Entropy ManagementGC Agent定期巡检、文档清理、约束更新、代码 GC。L2 要点不是 README 里的「建议」而是 CI 里的 No。Custom Linter 让报错即教学Structural Test 守住依赖分层CI Gate 硬拦截Rules 与代码同版本。3.2 自动化开发工作流任务输入 (L0)→ Context 加载 (L1)→ PRD Brainstorm (L3)→ Agent 执行 (Skill → MCP → Scripts)→ Verify (L2)→ PR / 自动 Review→ Compound 回填 L1过渡闭环和全景回答了「系统长什么样」。下一问是Coding Agent 之下能力层具体怎么长答案是——在传统 L0 能力层之外并行补上 Context 层。AI 能力层L0 运营组件与 Context 记忆并行图注仅有 Agents/Skills/MCP 解决「能做什么」并行建设 Context 层才解决「这个项目记得什么」。四、AI 能力层Coding Agent 之下缺的不是工具是记忆4.1 顶层Coding AgentCursor、Claude Code、Codex、Windsurf 等是编排入口——接收任务、规划步骤、调用下层能力。它们强在推理与执行但不等于工程系统本身。4.2 左侧L0 运营组件组件作用示例Agents角色化子 AgentArchitect、Code-reviewer、Tdd-guideCommands任务指令集/plan、/tdd、/verifyRules行为治理Coding-Style、Git-workflow、SecurityScripts自动化脚本Hooks 脚本、工具脚本SkillsSOP 知识单元Tdd-workflow、Security-reviewHooks事件触发pre-commit、CI/PRMCP统一工具协议GitHub、Filesystem、Database4.3 右侧Context 层NEW.context/├── constitution.md # 原则 路由表├── architecture/ # 技术架构├── business/ # 业务领域├── experience/ # 踩坑教训└── Auto-Sync # 防漂移双箭头含义没有 L0Context 无法被执行没有 ContextL0 在陌生项目里等同失忆。Context Engineering三层记忆 五层防漂移图注热/温/冷三层控制 Token 预算路由表决定「本次加载什么」五层 Sync 保证 Context 与代码同步演进。五、Context Engineering 深潜用工程化记忆对抗 AI 失忆5.1 三层渐进式加载层级名称策略内容规模参考Tier 1热记忆始终加载AGENTS.md、constitution.md~150 行Tier 2温记忆按任务加载business/、architecture/、conventions/200–500 行/文件Tier 3冷记忆按需加载decisions/、experience/、progress/不限5.2 四步使用方式复制.context/、AGENTS.md等到项目根/bootstrap-context扫描仓库、生成初版上下文Agent 读路由表只拉当前任务相关文件Hooks CI 定期对账防止漂移5.3 五层 Auto-syncContext 写一次不够。代码在变Context 不变就会从资产变负债。 五层机制从「每会话入口」到「每周全量对账」打断「漂移 → 质量下降 → 更难维护」的恶性循环。过渡Context 解决「看得见」L2 解决「做错了进不来」L3 解决「手够得着」。三层齐备才构成可运行的 Harness。L2 机械化护栏Verify 如何成为质量门禁图注L2 不是软性建议而是合入前的强制关卡失败不触发「重试 prompt」而触发 Harness 回填。六、How四条解法与量化成效6.1 交付约束 生产力缩小搜索空间提升 Agent 输出质量与一致性。有边界的 Agent 比裸奔 Agent 更稳。6.2 知识Repo 记忆版本化的.context/、Rules、Skills 替代口口相传。人机读同一套 Repo。6.3 验证机械护栏替代人肉 ReviewLinter 结构测试 CI 拦截机械性问题人审意图与权衡。6.4 进化错误 信号Agent 犯错 → 定位缺口 → 回填 Harness → 永久免疫。6.5 量化参考案例数据OpenAI 相关实践5 个月 3→7 人约百万行代码手写接近 0LangChain同模型成功率 52.8% → 66.5%TerminalBench 2.0Top 30 → Top 5落地路线图从 Phase 0 到飞轮转起来图注先有一条红线能拦住再建记忆再标准化执行最后跑通闭环与 GC。七、落地路线图Phase 0先有一条硬护栏1–2 周选 1 条最高频架构违规写 Structural Test CI 硬拦截建AGENTS.md与最小constitution.md含路由表骨架Phase 1Context 上库2–4 周/bootstrap-context生成architecture/、business/、conventions/接入 pre-commit PR 校验Phase 2执行层标准化持续高频任务沉淀为 Skills / Commands关键系统接 MCPHooks 串联写后检查Phase 3闭环与 GC持续Verify 失败走回填 SOP定期 GC过期 experience、僵尸 Rules工程地图图注治理层约束执行L1/L2/L3 分工协作Repo 居中Verify 失败走回填GC 对抗腐化——这是全文架构图合一后的「工程地图」。结语工程师的新分工是设计 Harness不是堆砌 Prompt全文八张流程图串起同一条叙事链图序回答的问题①为什么要从 Copilot 走向闭环②治理层如何约束「精准执行」③Harness 分层与工作流如何咬合④L0 能力与 Context 记忆为何必须并行⑤Context 如何分层加载与防漂移⑥L2 如何把 Verify 变成硬门禁⑦团队如何分阶段落地⑧全图合一后的工程飞轮一句话收束Harness Engineering 不是更好的代码生成器而是围绕 Agent 的工程操作系统。Repo 是唯一事实来源机械护栏是质量门禁Context Engineering 是对抗失忆与熵增的基础设施。模型会换代写在 Repo 里的约束、上下文和教训会留下。