三月份发生了三件事。Anthropic 公开了三智能体架构的工程细节。Claude Code 源码泄露了。前千问负责人林俊旸发了一篇长文。三件事撞在同一个月指向同一个判断单智能体的天花板到了下一个战场在编排框架。先说让我真正停下来想的那个实验一个叫 Prithvi 的工程师让 Claude 在无人干预的情况下连续工作了 4-6 小时从零搭出一个完整应用。他的结论不是Claude 变聪明了。他的结论是关键在于三个角色分开干活。规划器只管范围不碰实现。生成器冲刺交付做完自评再进下一轮。评估器用 Playwright 模拟真实用户UI、API、数据库三个维度挨个测任何一项没过就算失败。这个思路在软件工程里不新鲜——它像极了 GAN。生成器和评估器互相对着干生成质量才能往上走。只不过在 LLM 时代梯度反向传播变成了文本反馈。我做风控的时候就知道一件事执行者不能自己评判自己。自我评估有系统性宽容倾向这不是态度问题是结构性问题。生成和评判必须分离在 AI 这里同样成立。两个设计细节比架构图更值得记第一个上下文重置优于压缩。很多人遇到 AI 虎头蛇尾的问题——跑着跑着开始敷衍开始走捷径开始输出一些这个功能暂不实现之类的话。根源是上下文焦虑。模型感知到窗口快满了开始收尾。Prithvi 的解法不是压缩是清空。把状态写进结构化交接文件启动新智能体从文件读状态接着干。上下文归零但任务连续。这和我们跑风控批处理任务时的分片逻辑很像——不要指望一个进程撑到底把状态落盘分段执行结果一样可以接。第二个评估器是瓶颈但大家低估了调优难度。Prithvi 原话开箱即用的 Claude 是糟糕的 QA 智能体。它识别出问题之后会自我说服这不是大问题。它倾向表面测试藏在深处的 bug 它懒得挖。调优路径只有一条读日志、找分歧示例、更新 QA 提示词循环。没有捷径。成本这件事得单独说方案时长成本结果单智能体20分钟$9核心功能跑不通完整编排Opus 4.56小时$200功能完整可用简化编排Opus 4.63小时50分$124核心可用有明显缺口20倍成本差。换来的是从无法工作到可以交付的质变。对企业来说开发周期从几周缩到几小时这笔账不难算。Marc Lou 同时运营 15 个产品。他的核心逻辑是当每个项目结构都一样AI 就不用猜。标准化不是束缚是上下文锚点。林俊旸那篇文章说的三阶段训练模型 → 训练智能体 → 训练系统。他认为推理模型时代已经过去。智能体式思考要处理四件事什么时候停止思考开始行动、工具调用的顺序、消化环境里的噪声、失败之后怎么修正计划。这四件事模型本身给不了答案。框架给。Claude Code 泄露这件事暴露了什么源码被扫了个底朝天五层架构、六层权限防线、三层记忆系统、Hook 平台。Anthropic 发了 DMCA把仓库下架了。24 小时之内社区用 Python 重写了一个5 万 star。两件事第一架构本身的价值在于设计思想不在于代码本身。第二智能体时代的开源和闭源边界真的在重构。一个还没有答案的争议Opus 4.6 已经能自行消除上下文焦虑行为冲刺结构被移除了。这引出一个问题编排框架是永久架构还是模型能力不足时的临时拐杖Prithvi 的判断是编排框架的组合空间不会缩小它在移动。模型进步和框架演进是共生关系不是零和博弈。我倾向于同意这个判断。但谁来评估评估器这个递归问题目前还没人给出干净的答案。给实践者的三条建议从最简单的方案开始。先跑单智能体发现瓶颈再加组件。不要一上来就搭三层架构你大概率用不到但折腾的时间是真的。生成和评判必须分离。这是成本最低、收益最高的单一改动。自我评估的宽容倾向是结构性问题绕不过去只能从架构上解决。标准化你的技术栈。项目结构、命名规范、代码约定固化之后AI 接手的速度和质量都会显著提升。就像老搭档——不用每次都解释背景直接干活。最后模型能力是引擎编排框架是整车。引擎再好没有底盘和控制系统跑不出成绩。2026 年三月发生的这三件事说的是同一个变化AI 竞争从谁的模型更聪明转向谁的系统更会组织。这个转向才刚刚开始。