AI编程新战场：模型之上，“Agent Harness“如何颠覆开发体验？

张

张建站

2026/4/30 8:19:24

10分钟阅读

文章指出AI重心正从强通用模型转向构建系统强调Agent本质是模型与周边系统的深度耦合。重点解析了Coding智能体的六大技术基石实时仓库上下文、提示词缓存复用、工具访问与权限约束、上下文压缩、结构化会话记忆、子智能体机制。其中Agent Harness作为工程化系统通过整合工具链、上下文管理、记忆机制等极大提升模型实战表现其重要性不亚于模型本身。倘若你留心近期 AI 领域的一些进展不难发现其重心正在慢慢转移从追求更强、更通用的模型转向构建更好的系统。模型之上的 Agent 究竟是如何落地的其实现在的 AI 竞赛已经不只是模型的战争更是工程系统的博弈。在真实的应用场景中模型周边的系统如工具链集成、上下文管理和记忆机制等其重要性已不亚于模型本身。一个能够实际运用的 Agent其本质是模型与周边系统的深度耦合。这种周边系统正是 Agent 能够完成端到端任务的关键。为了看清这些 Agent 的内部机理这篇 Sebastian Raschka 博士的长文将从宏观设计层面拆解出编程智能体的六大技术基石。Agent Harness 介绍大家已经对 Claude Code 或 Codex 并不陌生但为了统一认知我们需要明确一个定义它们本质上是模型的Harness。简单来说就是给大语言模型LLM搭了一个工程化系统使其在处理编程任务时比裸模型更高效、更易用。编程智能体的精髓不仅在于你选择了哪个模型更在于其周边的工程系统仓库上下文Repo Context 它是如何理解数万行代码之间的关联的工具设计Tool Design 它是如何精准调用终端和编辑器的缓存稳定性Prompt-cache Stability 它是如何降低延迟并节省 token 的长对话持续性Long-session Continuity 它是如何在长时间的开发中保持连续性的很多人在讨论 AI 编程能力时往往会把基础模型、推理行为和智能体混为一谈。在深入拆解编程智能体的技术细节之前我们必须先理清这三者之间的本质界限。ReasoningLLM大语言模型底层的推理由它完成Agent一个结合了模型、工具、记忆和环境反馈的闭环系统Agent Harness管理上下文、工具调用、提示词和控制流的框架程序员其实只花了一小部分时间在写代码。剩下的绝大部分精力都花在思考、搜索、处理 git、执行测试以及分析日志。而一个优秀的 Coding Harness其核心价值就在于它代替人类接管了这些琐碎的上下文管理工作。这就是为什么同一个模型在 Claude Code 的终端里会显得比在网页对话框里聪明百倍。如果我们将一个优秀的模型放入类似 Claude Code 的系统中它的实战表现极有可能与 Opus 旗鼓相当。如果你的模型是一台顶级的发动机那么 Harness 就是那套精密的传动系统和电控单元。你会发现 Claude Code 的源码结构几乎是教科书般地复刻了以下这些 Harness 工程模块。1. 实时仓库上下文当你对 AI 说“把测试修一下”或“实现功能 X”时如果是一个普通的对话框它会一脸懵逼但一个合格的 Coding Agent 必须要理解用户想要做什么。它需要实时掌握我在哪是否在 Git 仓库里当前在哪个分支规则是什么项目里的README.md或INSTRUCTION.md是怎么写规范的现在进度如何git status显示有哪些改动最近的几个commit做了什么“修复测试”并不是一个独立的指令。如果 Agent 扫描到了项目里的相关说明文件它就能精准地知道该运行npm test还是pytest而不是在那里瞎猜。通过锁定仓库根目录和布局它可以直接定位到正确的配置文件而不是像没头苍蝇一样遍历你的整个硬盘。所以Coding Agent 在执行任何动作之前都会先进行一次工作区快照。2. 提示词与缓存复用当 Agent 拿到了仓库的快照后面临的挑战是如何优雅地把它喂给模型。很多人以为智能体每轮对话都是把所有信息打包成一个巨大的Prompt发过去。如果真这么干那不仅昂贵而且慢得让人抓狂。在一个高频交互的编程Session中有些信息是极其稳定的而有些则是瞬息万变的。在之前的文章中介绍过提示词缓存有两部分静态它包含通用指令System Prompt、工具描述Tool Definitions以及当前仓库概览只要项目结构没发生巨变这部分信息在几小时内都是静态的。动态包含短期记忆最近的操作记录、当前对话记录Transcript以及用户最新下达的指令这部分每轮都会更新。缓存命中后模型就不需要重新计算那些已经处理过的上下文。3. 工具访问与权限约束如果说前两个基石给了智能体“眼睛”和“记忆”那么工具调用则赋予了它真正的手脚。普通的聊天模型只能在对话框里给你建议比如告诉你“你应该运行 npm test”但像 Claude Code 这样的编程智能体它能直接替你按下回车并把运行结果捡回来继续分析。非常智能非常省心但背后的安全性设计至关重要。优秀的 Coding Harness 绝不会让模型即兴发挥。相反它会为模型提供一个极其详细的工具清单这些工具拥有明确的名称、输入参数和边界限制。在执行任何操作之前Harness 会进行四重过滤合法性检查“这是我给你的工具吗”参数验证“你传的参数格式对吗”权限门控“这个敏感操作是否需要用户手动确认”路径隔离“你请求读取的文件是否超出了当前仓库的范围”这种设计本质上是以退为进。虽然 Harness 限制了模型的自由度但却极大地提升了系统的可靠性。模型只需要发送一个结构化的请求比如 JSON 格式剩下的执行和安全校验都由 Harness 完成。4. 上下文压缩现在的 LLM 虽然支持越来越长的上下文但长并不代表好。Context Bloat上下文臃肿不仅消耗 token更容易引入噪声让模型的推理难度加大。编程智能体尤其容易遭遇这个问题。频繁的文件读取、冗长的编译报错、成页的终端日志……如果全部原封不动地塞给模型token 的消耗速度是很快的。一个成熟的 Coding Harness 在处理信息时通常会采用两套极具工程智慧的压缩算法强制裁剪Clipping这是一种预算控制。无论是多么长的文件内容或工具输出Harness 都会对其进行硬性截断。它绝不允许任何单条信息霸占整个 Prompt。分级摘要Transcript Reduction这类似于人类的记忆模式近实远虚。近期事件保持高保真度保留细节因为它们对当前的决策至关重要。远期事件进行归纳和摘要只保留关键动作和结果。此外还可能要做去重处理如果你在半小时内读了五次同一个文件Harness 只会在上下文里保留一份最新的快照而不是让模型反复阅读同一段文字。很多时候我们觉得某个 AI 更好用、更聪明可能并不是它的模型智商更高而是它的 Context 质量更高。5. 结构化会话记忆在处理长达数小时、涉及几十个文件的编程任务时智能体是如何保持清醒而不至于在忙活半天后忘了最初的目标答案在于一套精妙的双层记忆存储系统。如果说上一章提到的上下文压缩是为了节省每一轮对话的流量那么本章的结构化记忆则是为了建立一份持久、可追溯的日志。如 Claude Code 通常会在本地磁盘上维护两个核心 JSON 文件全量档案Full Transcript这是智能体的黑匣子它事无巨细地记录了所有的用户请求、模型回复、工具执行结果和报错信息。它是**可恢复性Resumability**的保障即使你关闭了终端或重启电脑智能体也能通过读取这份档案恢复当时的上下文。工作记忆Working Memory这是从全量档案中提炼出的核心它不是简单的追加而是不断被修改和压缩。它负责任务连续性Task Continuity它记录了当前的核心任务是什么、哪些文件最重要、有哪些关键结果。每一轮交互结束后最新的对话和工具输出都会被转化为一个新事件同步到这两个记忆里。6. 子智能体Subagents当一个智能体拥有了工具和状态它面临的下一个挑战就是如何同时处理多件事情在复杂的编程场景中主智能体可能正在进行大规模的代码重构但中途突然需要确认一个配置文件的路径或者查一下某个测试报错的原因。如果让主逻辑停下来去处理这些杂事效率会极低。于是**子智能体Subagents**应运而生。这本质上是一种“任务委派”机制。创建一个子智能体并不难难的是如何界定它的边界。如果没有任何约束你很快就会陷入套娃泥潭子智能体又生出子智能体大家在同一个文件里乱改最后导致整个项目崩溃。Harness 会通过以下手段来约束这些子智能体上下文继承子智能体必须继承足够的背景信息如仓库结构。权限边界比如在 Claude Code 中某些子智能体被设置为只读模式Read-only它们只负责查询信息而不允许修改代码。递归深度限制防止无限派生。沙箱隔离像 Codex 这种工具虽然允许子智能体继承主智能体的环境但其任务范围会被严格锁定在某个子模块内。真实的应用场景中Harness 的重要性已不亚于模型本身。这也能解释为什么像 Claude Code 这样的产品会越来越受欢迎。让模型能发挥出更大的能力这就是 Harness 的核心作用。最后唠两句为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选很简单这些岗位缺人且高薪智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200% 远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。那0基础普通人如何学习大模型深耕科技一线十二载亲历技术浪潮变迁。我见证那些率先拥抱AI的同行如何建立起效率与薪资的代际优势。如今我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理分享于此为你扫清学习困惑共赴AI时代新程。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

告别传感器依赖：用CMT实现自动驾驶3D检测的‘单目’与‘纯激光’自由切换

自动驾驶感知系统的冗余设计：CMT框架下的多模态自由切换实战在自动驾驶系统的实际部署中，传感器故障是最令人头疼的突发状况之一。想象一下，当车辆以60公里时速行驶时，激光雷达突然宕机，或者摄像头被突如其来的泥浆遮…...

2026/4/30 8:16:23 阅读更多 →

ZED深度感知实战：如何优化性能并获取法线图，用于机器人导航与3D重建

ZED深度感知实战：性能优化与法线图高级应用指南当我在机器人导航项目中第一次尝试使用ZED相机时，面对实时性要求和复杂环境感知的双重挑战，深刻体会到参数调优和高级功能应用的重要性。本文将分享从实战中总结的深度感知优化技巧&#xff0…...

2026/4/30 8:09:21 阅读更多 →

别再被FileExistsError坑了！Python os.mkdir() 创建文件夹的3个实用技巧（附YOLO数据转换实战）

别再被FileExistsError坑了！Python os.mkdir() 创建文件夹的3个实用技巧（附YOLO数据转换实战） 在计算机视觉项目的开发过程中，数据预处理环节往往占据大量时间。特别是当我们需要将标注数据从Labelme格式转换为YOLO格式时&#x…...

2026/4/30 8:06:28 阅读更多 →

PowerShell脚本编译终极指南：如何用Win-PS2EXE轻松打包脚本为EXE文件

PowerShell脚本编译终极指南：如何用Win-PS2EXE轻松打包脚本为EXE文件【免费下载链接】PS2EXE Module to compile powershell scripts to executables 项目地址: https://gitcode.com/gh_mirrors/ps/PS2EXE 还在为PowerShell脚本分发而烦恼吗？每次…...

2026/4/29 13:00:34 阅读更多 →