从上下文角度去理解Harness_Engineering

张

张建站

2026/4/30 11:35:25

10分钟阅读

文章深入探讨了Harness Engineering的核心内涵指出其并非简单的驾驭工程而是通过上下文工程实践为AI模型构建有效的工作空间。作者强调真正的进步在于工程思维的实践应用而非术语翻新。文章从束缚与空间的辩证视角阐述了上下文工程如何通过系统提示词、用户记忆、工具定义等手段为LLM注入精准有效的信息实现最佳推理与执行。同时文章对比了传统Reasoning思维与新兴Agentic思维的差异指出Agentic思维更注重模型与环境交互中的持续进展而Harness Engineering正是实现这一转变的关键。作者呼吁构建开放协作的AI应用生态以推动大模型技术的实际落地。从上下文去理解Harness Engineering许多被标榜为“新“的事物实际上只是将扎实的工程实践应用到新的领域真正的进步不在于术语的翻新而是在于从实际构建和打破这些系统中获得宝贵经验对于Harness Engineering的理解更多的重心应该放入到两篇具体的工程实践经验的文章中去OpenAI的文章https://openai.com/zh-Hans-CN/index/harness-engineering/Anthropic的文章https://www.anthropic.com/engineering/harness-design-long-running-apps如果我们只关注这个词的本身含义那么其实它可以有很多种叫法• 驾驭工程直接翻译• Agentic的编排与集成• 构建Agent的工作空间一、“束缚”不是最佳理解但是仅发表我自己的看法我并不喜欢“驾驭工程”这个词有的解释是这样的Harness 这个词直译是“马具”。一匹马很强壮但没有马鞍、缰绳、马镫你骑不了它。AI 模型也一样它很聪明但你得给它一套“装备”它才能真正干活。我觉得驾驭和马具这些词从理解上面就感觉是一种束缚对于Agent的束缚这让我想起来之前构建Agent的Workflow以工作流的形式来搭建Agent基于开发者自身对于工程的理解和业务流程的理解来搭建一套运行骨架这套骨架被搭建的太清晰啦以至于Agent运行只能沿着骨架行走这种方式搭建的Agent只能算是勉强够用但是并不能发挥模型潜力和自主性但是在实际的业务落地中我们会存在各种各样的情况并且用户的输入也是无法确定的仅以工作流的形式是无法完全承担领域革新的任务的并且随着模型的升级迭代这套“骨架‘反而成为了限制而不再是帮助但是不可否认WorkFlow是有意义的是作为整个大模型应用开发工程历史中关键的一环当然那个时候Workflow的背后也有着提示词工程的身影当时大家总觉得搭建有效Agent的核心是系统提示词一定要完美而不是以工程思维的方式在思考这件事情在上下文工程出现的时候我能感受到大模型能够有更大的希望在某一个领域某一个业务中具体的落地像Cursor、ClaudeCode、Lovart、Youmind背后的构建理念在我看来都是有上下文工程的身影的对于上下文工程我们还应该去扩大它的理解因为“上下文”这词可以成为大模型应用的核心理念上下文工程的定义是在有限的上下文窗口中选择、组织并注入与用户输入或任务高度相关的信息从而让大语言模型LLM能够在合理的边界内做出最佳推理和执行。那么如今的“马具”理解很可能会给许多开发者带来困惑甚至整个的大模型应用构建生态会被错误回退和理解所以我想要从上下文工程的角度来表达我对于Harness Engineering的体会希望能给大家带来另外一层值得参考的思路二、对于上下文的理解之路在说具体的理解之前我想和大家聊一些闲话我是如何产生对于上下文工程是这种理解的我自己平时也会构建一些大模型应用也喜欢去琢磨市场上的那些大模型应用的背后思路和理念还有一些框架的概念呀一些框架的使用呀很多时候就会感觉有点杂为什么它不用这个技术这是一种什么技术它怎么用这个技术所以对于如何构建大模型应用的理解我自己感觉就是太多了太杂了学不完有次我看到一篇文章里面提到的上下文这个理念我发现自己在构建Agent的时候好像也觉得只有任务注入那一瞬间的上下文是取决定因素的一个Agent输出的结果或者完成的任务是否有效取决于注入的上下文足够的精准和相关顺着这个思路去理解那么就出现一条线将这些工程概念和技术实践连接起来啦• MCP、Skill、Tool、Function Call其实都是外部工具的一种外部工具就是解决外部数据引入到上下文的工程手段关键点还是在工具模块注入给上下文的输出要有效并且在工具实现层面会出现关系数据库的查询文档向量数据库的语义相似度的查询• 用户记忆和会话存储如果将历史记录注入到上下文中并且如何高效的读取写入用户记忆里面会延伸出来所了解的知识图谱GraphRAG和现在的文件系统的md格式读取最核心的不是实现而是用户记忆如何去构建例如给用户记忆分层长期记忆、短期记忆、工作记忆这种概念设计• 系统提示词里面是现有的提示词工程的产物写好一个优秀的系统提示词的方法• 结构化输出在模块耦合的情况下Agent内部要有效的数据传递需要我们使用结构化的输出来处理之后再次输入所以结构化会延伸出来一些实现方式提示词实现工具实现参数实现哪一种结构化对于模型比较友好XMLJSONCSVTOML等• LLM模块像LangChainopencode这些工具都要适配现有的各种模型厂商的API格式所以一个Agent尤其是多Agent要有这个模块来支持丝滑调用各种模型• 上下文管理上下文压缩、架构解决方案采用多智能体协同Agent和自主Agent等• Agent的评估关于LangFuse这些框架的作用还有提示词工程中讲究的更新机制都是依靠评估模块来迭代实现的所以思路收束回来那么就可以理解啦几种核心的上下文类型是这些东西的头和起点系统提示词、用户记忆、工具定义和输出、会话历史记录、结构化输出、用户输入这些类型组成一个完整的上下文在那一瞬间注入给LLM以此借助内部的推理链来完成用户输入的任务而我们大模型应用工程师的作用就是保证注入给LLM的上下文足够精准和有效使LLM可以在合理的边界内做出最佳的推理和执行所以后面我就以自己这套上下文工程的理念去理解各种Agent、各种框架、各种新概念这样脑子里面就有一条总线牢牢抓住你的思维不让自己走偏当出现新概念新框架我就会问自己“它在上下文工程的那一个部分那一个环节中”而依靠上下文工程的理解去构建的Agent目前来看都是非常有效的我自己构建的也是如此当然我对于上下文工程的理解或许是片面的这里面肯定有更多技术的挑战和细节而我的理解极可能随着领域不断发展和模型的升级还有一些优秀的产品不断迭代会逐渐过时因此保持灵活和谦逊是非常必要的。我希望自己可以通过实践再重新学习的方式强化这些概念同时我将这些理解整理成文发布出来希望借助整个开源社区来“锤炼”这套概念来为其去除糟粕留下精华完整的项目入口在文章的最后有介绍我也很希望自己对于大模型应用的理解足够完善以此构建更好的Agent产品三、从工作空间去理解Harness Engineering那么接下来从上下文的角度去理解Harness Engineering会是什么在原本的上下文的类型组成中一直有一个我无法完善并且去解释清楚的一种类型的上下文解释“相关上下文”我对于它的理解是相关上下文这个对于开发者来说是最有挑战性的这个变动性是最大的每一个 Agent 或许都有属于自己独特的相关上下文模块设计的架构在Harness Engineering这个概念出来的时候我有感觉了相关上下文就是Context Engineering和Harness Engineering的通道也就是Harness Engineering的源头上面的那些博客其实就是相关上下文在不同Agent和任务中的不同表现是一种实践经验得出下图所以Harness Engineering我的理解就是它真正在做的事情是定义边界和协作协议而不是控制每一步的执行它不是在限制模型能做什么而是在创造条件让模型能做到原本做不到的事。工程师们应该构建Agent的工作空间让Agent可以稳定有效运行在那个领域环境那么大家更多应该去关注不同领域下的这个Agent工作空间是如何构建的呢而在这个工作空间下Agent的执行结果的中间产物就是相关上下文目前OpenAI和Anthropic给出大家实践参考告诉大家要构建一个编码领域的长期运行的Agent需要使用到那些工程方式和概念接下来我也会仔细去阅读那两篇工程实践的文章梳理出来一个我的理解四、从“Reasoning”到“Agentic”的理解林俊旸在X上面发布了一篇文章我觉得很有意思是我第一次感受到在模型训练阶段中也需要从传统的方式转变我之前一直是从大模型应用的角度去思考这个问题原文链接https://x.com/JustinLin610/status/2037116325210829168早之前我做Agent的时候有尝试过加深推理链的使用多Agent进行辩论推理之类的方式但是我发现这很容易陷入到“错误的信息中试图推理出来正确的答案”的悖论我认为只有在确保注入的上下文已经处理到极限啦在任务相关性上面那么这个时候推理会是解答问题的“火箭”高效且有用就像那篇文章提到“我们不能陷入无限的经验主义应该也要靠实践去反复论证并且打破认知重新塑造”人类正确认识运动的秩序“从特殊的事物出发逐步扩大到一般的事物然后总结概括认识事物的本质最后再回到事物的特殊性”不同的问题在大层面下有不同的解决方法倘若只专注推理思维链的话就像是关在书房里面富有知识的学者能解决一些问题但另外一些问题因为缺乏实践反馈的再理解是永远无法解决的所以从Reasoning转变到Agentic是跨越问题的一大步Agentic思维关注的是模型在与环境交互时能否持续取得进展。具体的几个表现如下模型决定何时停止思考并采取行动选择调用哪个工具以及调用顺序整合上下文中因环境读取到的嘈杂或不完整的结果失败后重新修改计划多轮对话和多次工具调用中保持连贯性而原文最棒的一句话我觉得是这句清晰的阐述了Reasoning思维和Agentic思维的差异我预计Agentic思考将成为主导的思考形式。我认为它最终可能会取代大部分旧有的静态独白式Reasoning思考那种试图通过输出越来越多的文本来弥补交互不足的、过度冗长且孤立的内在轨迹。即使在非常困难的数学或编程任务上一个真正先进的系统也应当有权进行搜索、模拟、执行、检查、验证和修订。其目标是稳健且高效地解决问题文章中关于Harness的理解在这一段中很明显我觉得就是在阐述Agent运行空间的重要性或者是工作空间的重要性如何让一个Agent在某一个环境下能够稳定运行并独自获取任务相关上下文的能力是接下来至关重要的例如反馈验证模块给Agent提供了环境的兼容性任何环境下的问题Agent都可以先试一下动手实践一下通过反馈信号的完整性可以纠正Agent的推理和计划思路以此来真正的解决这个问题。Agentic思维也将意味着Harness Engineering。核心智能将越来越多地来自多个代理的组织方式一个负责规划和分配工作的协调者像领域专家一样行动的专业代理以及执行更具体任务、同时帮助控制上下文、避免污染并保持不同推理层次之间分离的子代理。未来是从训练模型转向训练代理再从训练代理转向训练系统。最后唠两句为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选很简单这些岗位缺人且高薪智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200% 远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。那0基础普通人如何学习大模型深耕科技一线十二载亲历技术浪潮变迁。我见证那些率先拥抱AI的同行如何建立起效率与薪资的代际优势。如今我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理分享于此为你扫清学习困惑共赴AI时代新程。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

Pyecharts离线部署踩坑记：手把手教你正确下载echarts.min.js并配置本地路径（附完整代码）

Pyecharts离线部署实战指南：从白屏问题到完美渲染的完整解决方案最近在给某金融机构做数据可视化平台迁移时，遇到了一个典型问题——内网环境下的Pyecharts图表白屏。这个看似简单的技术障碍，背后却涉及前端资源加载机制、路径配置规范、文件…...

2026/4/30 11:30:26 阅读更多 →

Kimi简历泄露引关注：隐私保护漏洞或冲击月之暗面商业化及上市前景

一次“手滑”，却炸出了陌生人的完整简历近期，有网友曝光称，自己仅因误发了一张无关图片，Kimi竟直接“吐”出了另一位用户的完整求职简历，姓名、电话、工作经历等敏感信息一览无余。4月20日晚，一则网帖瞬间点…...

2026/4/30 11:29:42 阅读更多 →

Linux 0.11 源码探秘：setup.s 里那些 BIOS 中断调用，到底在给内核准备什么‘见面礼’？

Linux 0.11 启动探案录：BIOS 中断如何为内核铺路当按下电源键的那一刻，一台 x86 计算机的启动过程就像一场精心策划的接力赛。BIOS 完成自检后，将接力棒交给 bootsect.s，再由 setup.s 接手——这个不到 512 字节的汇编程序&#…...

2026/4/30 11:28:53 阅读更多 →

PowerShell脚本编译终极指南：如何用Win-PS2EXE轻松打包脚本为EXE文件

PowerShell脚本编译终极指南：如何用Win-PS2EXE轻松打包脚本为EXE文件【免费下载链接】PS2EXE Module to compile powershell scripts to executables 项目地址: https://gitcode.com/gh_mirrors/ps/PS2EXE 还在为PowerShell脚本分发而烦恼吗？每次…...

2026/4/29 13:00:34 阅读更多 →