Harness Engineering 实战：如何让 AI 写代码可靠性提升 10 倍

张

张建站

2026/5/22 8:42:51

10分钟阅读

Harness Engineering 实战：如何让 AI 写代码可靠性提升 10 倍

“同一个模型只改 Harness人工审查时间从每 100 行 2 小时降到 15 分钟”有个朋友公司内部要做一个效率工具。前端后端数据库大概 2 万行代码。要求两周交付。要是以前肯定得拉上两三个同事一起干。但这次只有朋友一个人加一个 AI 助手。结果10 天完成提前 4 天交付AI 写的代码人工审查时间从每 100 行 2 小时降到 15 分钟上线后无严重 bug注意这些数据是我从朋友那了解到他自己记录的不是精确测量。但效率提升 10 倍这个感受是真实的。01先说说遇到的问题。问题 1AI 写的代码不符合我的项目规范。要求用 TypeScript它写 JavaScript。要求用 ESLint它不写 lint 配置。要求函数不超过 50 行它写 200 行。问题 2AI 经常忘记之前的约定。说用这个 API它忘了换成另一个。说这个文件别动它动了。说先写测试它后写。问题 3AI 写的代码没法直接跑。缺依赖、少配置、路径错误……每次都要手动修。问题 4AI 陷入循环反复改同一个文件。改来改去越改越乱。02一开始用的是 Prompt Engineering。写了一个超长的系统提示词“你是一个资深工程师。请用 TypeScript 写代码遵守 ESLint 规范函数不超过 50 行。先写测试再写实现。用 XXX API别动 YYY 文件……”有用吗有点用但不多。AI 还是经常忘记。为什么因为提示词是软约束。AI 可以听也可以不听。现在想要的是硬约束。03然后开始设计 Harness。设计的 Harness 架构分四层┌─────────────────────────────────────┐ │ 编排层 (Orchestration) │ │ 任务分解 | 子 Agent 管理 | 模型路由 │ ├─────────────────────────────────────┤ │ 中间件层 (Middleware) │ │ Lint 检查 | 类型检查 | 测试验证 │ ├─────────────────────────────────────┤ │ 工具层 (Tools) │ │ 文件系统 | 命令行 | 浏览器 | Git │ ├─────────────────────────────────────┤ │ 约束层 (Constraints) │ │ 系统提示词 | 项目规范 | 架构规则 │ └─────────────────────────────────────┘核心思想不是靠 AI 自觉是靠系统强制。04第一层约束层Constraints这是最底层定义 AI 的行为边界。写了三个文件AGENTS.md项目总规范# 项目规范 ## 技术栈 - 语言TypeScript 5.4 - 框架React 18 Node.js 20 - 数据库PostgreSQL 15 ## 代码规范 - 函数不超过 50 行 - 文件不超过 500 行 - 必须写单元测试 - 必须通过 ESLint 和 TypeScript 检查 ## 禁止事项 - 不许删除任何文件 - 不许修改 config/ 目录 - 不许使用 eval() - 不许硬编码密钥docs/architecture.md架构文档# 架构规范 ## 目录结构 src/ ├── controllers/ # 控制器层 ├── services/ # 服务层 ├── models/ # 数据模型 └── utils/ # 工具函数 ## 依赖方向 controllers → services → models → utils 不允许反向依赖.cursorrulesAI 专用规则# AI 编码规则 1. 每次修改前先读取相关文件 2. 写完代码后立即运行测试 3. 如果测试失败必须修复后再提交 4. 如果不确定先问人类这三个文件每次对话前都会注入到上下文。AI 不可能说我不知道规范。05第二层工具层Tools这是 AI 的手和脚。给了 AI 五个工具文件读写工具interface FileSystem { readFile(path: string): string writeFile(path: string, content: string): void deleteFile(path: string): never // 不允许删除 }命令行工具interface Terminal { run(command: string): { stdout: string; stderr: string; code: number } }浏览器工具interface Browser { navigate(url: string): void screenshot(): string click(selector: string): void }Git 工具interface Git { commit(message: string): void push(): void }搜索工具interface Search { web(query: string): string[] code(symbol: string): string[] }关键点每个工具都有清晰的描述和参数。AI 知道什么时候用什么工具。06第三层中间件层Middleware这是 Harness 的核心。写了四个中间件中间件 1Lint 检查function lintCheck(code: string): { pass: boolean; errors: string[] } { // 运行 ESLint const result runESLint(code) if (!result.pass) { // 把错误信息注入上下文让 AI 重写 injectContext(代码未通过 Lint 检查${result.errors.join(\n)}) return { pass: false, errors: result.errors } } return { pass: true, errors: [] } }中间件 2类型检查function typeCheck(code: string): { pass: boolean; errors: string[] } { // 运行 TypeScript 编译器 const result runTSC(code) if (!result.pass) { injectContext(类型检查失败${result.errors.join(\n)}) return { pass: false, errors: result.errors } } return { pass: true, errors: [] } }中间件 3测试验证function testValidation(): { pass: boolean; failures: string[] } { // 运行单元测试 const result runJest() if (!result.pass) { injectContext(测试失败${result.failures.join(\n)}) return { pass: false, failures: result.failures } } return { pass: true, failures: [] } }中间件 4循环检测function loopDetection(): void { // 跟踪文件编辑次数 const editCount getEditCount(currentFile) if (editCount 5) { injectContext(警告你已经修改这个文件${editCount}次了请换个思路) } if (editCount 10) { // 直接停止让人类介入 stopAndNotifyHuman() } }每个中间件都是强制执行的。AI 写的代码必须通过所有检查才能提交。07第四层编排层Orchestration这是 Harness 的大脑。设计了一个简单的任务编排流程1. 接收任务 → 2. 分解子任务 → 3. 分配给子 Agent → 4. 收集结果 → 5. 合并代码具体实现async function orchestrate(task: string): Promisevoid { // 1. 任务分解 const subtasks await decomposeTask(task) // 2. 并行执行 const results await Promise.all( subtasks.map(t runAgent(t)) ) // 3. 合并代码 const mergedCode mergeResults(results) // 4. 最终验证 if (!finalValidation(mergedCode)) { // 失败就回滚 rollback() throw new Error(验证失败) } // 5. 提交 commit(mergedCode) }这样做的好处大任务拆小并行执行快速验证。08说说效果。之前只用 Prompt人工审查时间每 100 行代码 2 小时返工率约 60%AI 反复修改次数平均 5-6 轮之后用 Harness人工审查时间每 100 行代码 15 分钟返工率约 8%AI 反复修改次数平均 1-2 轮效率提升约 10 倍。注意这是朋友个人项目的数据不是严格实验结果。但 LangChain 的实验数据是严格的同一个模型只改 Harness分数从 52.8 提升到 66.5。09我举个具体案例。任务实现一个用户登录功能。之前的流程1.我写 Prompt“请实现用户登录用 JWT加密码加密……”2.AI 写代码3.我审查发现一堆问题4.我让它改5.它改完还有问题6.我再让它改7.反复 5-6 轮8.最后我自己上手修耗时3 小时。现在的流程我写任务“实现用户登录功能”AI 读取AGENTS.md知道要用 JWT 和密码加密AI 写代码Lint 检查不通过打回重写类型检查不通过打回重写测试验证不通过打回重写全部通过自动提交耗时40 分钟。人类做什么看着 AI 干活最后验收一下。10最后说三个踩过的坑。坑 1系统提示词写得太长。一开始写了一个 5000 字的提示词。结果AI 根本记不住。后来把它拆成三个文件每次只注入相关的。效果好了很多。坑 2中间件检查太严格。一开始要求 100% 通过才能提交。结果AI 卡在一个地方反复过不去。后来加了降级机制如果反复 5 次过不去就通知人类介入。坑 3工具描述不清晰。一开始工具的描述写得很简单。结果AI 经常用错工具。后来给每个工具都写了详细的使用示例。AI 就知道什么时候用什么了。11回到开头的问题怎么让 AI 写代码更可靠答案不是换更好的模型是设计更好的 Harness。同一个 GPT-5.2-CodexLangChain 只改 Harness分数从 52.8 提升到 66.5。同一个模型我改了 Harnessbug 率从 35% 降到 3%。模型是引擎Harness 是方向盘。引擎再好没有方向盘车也开不远。2026 年真正的护城河不是模型。是你设计的 Harness。Harness 组件清单层级组件作用约束层AGENTS.md项目总规范约束层docs/architecture.md架构文档约束层.cursorrulesAI 专用规则工具层文件系统持久化存储工具层命令行执行脚本工具层浏览器网页交互工具层Git版本控制中间件层Lint 检查代码规范验证中间件层类型检查TypeScript 验证中间件层测试验证单元测试验证中间件层循环检测防止无限循环编排层任务分解大任务拆小编排层模型路由选择合适模型学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】