近期厦门大学、香港理工大学、马里兰大学、华盛顿大学圣路易斯分校、UIUC、新加坡管理大学等多机构联合发布了一篇关于Self-Evolving Agents自进化智能体的系统性综述A Systematic Survey of Self-Evolving Agents: From Model-Centric to Environment-Driven Co-Evolution当 LLM Agent 不再只是被人类标注数据训练出来而是能够主动探索、获得反馈、更新策略、积累经验时我们应该如何理解它的“自进化”图1Self-Evolving Agents 代表性工作发展趋势从2022年到2026年围绕 Agent 的研究快速从以模型自身能力增强为中心逐步走向通过环境交互获取反馈、积累经验并进一步发展为模型与环境相互驱动、共同进化的新范式。一条越来越清晰的技术主线正在形成Agent 的能力边界不只取决于模型参数也取决于它如何与环境交互并从交互中持续获得可用的学习信号。为什么需要 Self-Evolving Agents传统 Agent 系统大多依赖一个“两阶段范式”Pre-Training通过大规模语料学习通用世界知识Post-Training通过 SFT、RLHF、RLAIF 或任务数据让模型学习特定的 Agentic 能力。这个范式已经极大推动了 LLM Agent 的发展但它也有一个越来越明显的瓶颈Agent 越复杂对高质量监督信号的依赖就越强而高质量人类标注、人工奖励和专家反馈很难无限扩展。对于简单问答任务人类可以直接写答案对于复杂 Agent任务人类不仅要判断最终答案还要理解多步规划、工具调用、环境反馈、错误恢复和长期状态变化。监督成本急剧上升。Self-Evolving Agents 应用更关键的是如果 Agent 永远依赖人类提供学习信号那么它的能力上限很容易被人类经验、标注规模和预定义任务边界限制住。因此Self-Evolving Agents 的核心动机是让 Agent 从被动接受人类监督转向主动构造问题、探索环境、生成反馈、修正策略并在闭环中持续提升。这篇 survey 将 Self-Evolving Agents 概括为两个核心特征Strong autonomy with minimal human supervision尽量减少对外部人工监督的依赖Active exploration through interaction通过内部推理或外部环境交互主动探索和改进。换句话说自进化 Agent 不再只是一个“被训练好的模型”而更像是一个可以参与自身成长过程的系统。统一分类三条自进化路线这篇 survey 最重要的贡献是提出了一个统一 taxonomy将 Self-Evolving Agents 划分为三大范式Model-Centric Self-Evolution模型中心自进化Environment-Centric Self-Evolution环境中心自进化Model-Environment Co-Evolution模型-环境共同进化。图2Self-Evolving Agents 统一分类框架图2给出了全文的核心分类框架。这个框架的关键之处在于它不是简单按照任务类型或技术模块划分而是按照“进化发生在哪里”来组织整个领域如果进化主要发生在模型内部就是 Model-Centric如果进化来自模型对外部知识、经验、工具和结构的利用就是 Environment-Centric如果模型和环境都在持续变化并互相推动对方变强就是 Model-Environment Co-Evolution。这一视角的重要性在于它将原本分散的研究方向统一到一个递进式框架中从模型内部计算与参数更新驱动的能力增强到环境交互与反馈驱动的经验积累再到模型与环境相互适应、共同演化。图3Self-Evolving Agents 技术谱系总览图3进一步展开了 Self-Evolving Agents 的完整技术分类将不同演化路径下的方法系统组织起来展示了该领域从内部能力增强、外部环境交互到模型-环境共同演化的整体技术版图。它基本可以作为理解当前 Self-Evolving Agents 研究格局的一张技术地图。Model-Centric Self-Evolution模型先自己变强第一条路线是Model-Centric Self-Evolution。这类方法的基本假设是模型内部已经包含大量潜在能力只是没有被充分激发。因此自进化首先可以从模型自身出发通过更多推理计算、更好的搜索策略或者自生成训练数据来提升能力。这一路线可以进一步分成两类3.1 Inference-Based Evolution推理时自进化这类方法不更新模型参数而是在单次推理过程中投入更多计算资源让模型“想得更充分”。代表方向包括Parallel Sampling并行采样多条推理路径再通过投票、排序或一致性判断选择答案Sequential Self-Correction生成、反思、修正形成多轮自我纠错Structured Reasoning将推理过程组织成树、图等结构。它的本质是用更多 test-time compute 换取更可靠的单次输出。但问题也很明显这种改进通常是临时的。推理结束后模型参数没有变化能力不会被真正内化。3.2 Training-Based Evolution训练时自进化相比之下Training-Based Evolution 追求长期能力提升。模型会生成数据、筛选数据、评估数据并通过 SFT 或 RL 将新能力写回参数。这篇 survey 将其分为两条路线Synthesis-Driven Offline Self-Evolving离线生成合成数据再用于训练Exploration-Driven Online Self-Evolving在线探索、实时反馈、持续更新策略。图4离线合成驱动进化与在线探索驱动进化对比图4很好地展示了二者差异。离线合成方法更像“模型给自己出教材”可以高效启动但容易受限于初始模型能力在线探索方法则更像“模型不断在探索中试错”能够发现新的策略但对反馈质量、训练稳定性和探索效率要求更高。这也是为什么近年来 R-Zero、Absolute Zero、Agent0等工作受到关注它们不满足于让模型复述已有知识而是尝试让模型通过自博弈、环境反馈或任务探索获得新的训练信号。Environment-Centric Self-Evolution环境成为能力来源第二条路线是Environment-Centric Self-Evolution。如果说 Model-Centric 方法主要关注模型内部如何变强那么 Environment-Centric 方法强调Agent 的进化不只来自参数更新也来自它如何利用外部知识、经验、工具、记忆和多 Agent 结构。这篇 survey 将环境中心自进化分为四个方向Static Knowledge Evolution静态知识演化Dynamic Experience Evolution动态经验演化Modular Architecture Evolution模块架构演化Agentic Topology EvolutionAgent 拓扑演化。4.1 Static Knowledge Evolution从回答问题到主动找知识传统 RAG 通常是“用户问问题系统检索相关文档”。但 Agentic RAG 和 Deep Research 更进一步Agent 会判断自己缺什么知识主动生成查询、浏览网页、收集证据、整合推理并最终生成结构化报告。这意味着检索不再只是一个前置模块而成为 Agent 推理链条中的主动认知行为。4.2 Dynamic Experience Evolution从知识到经验知识解决的是 “what is”经验解决的是 “how to do”。很多 Agent 任务不是缺知识而是缺经验哪种工具调用顺序更稳定哪类错误应该如何恢复哪些历史失败能指导当前决策哪些 workflow 可以复用到新任务因此Dynamic Experience Evolution 关注如何从历史轨迹、成功案例、失败反馈和执行日志中提炼可复用经验。图5静态知识演化与动态经验演化对比图5将 Static Knowledge Evolution 和 Dynamic Experience Evolution 放在一起对比。前者更适合知识密集型任务例如问答、搜索和研究后者更适合逻辑密集、长程规划、多轮交互和 embodied tasks因为这些任务更依赖可迁移的行为经验。4.3 Modular Architecture Evolution记忆、工具和接口也要进化Agent 与环境交互并不是直接发生的而是通过一系列模块完成的例如Memory ModuleTool ModuleInteraction InterfaceProtocolSkill Library。这些模块本身也可以演化。例如Memory 不再只是一个向量数据库而可以是一个能够主动决定保留、遗忘、合并、重写和路由的系统。Tool 也不只是预定义 API而可以被 Agent 自动创建、组合和维护。Interaction Interface 也可以被设计得更适合模型理解和操作从而提升 Agent 的稳定性。这说明 Agent 的能力提升不仅是“模型更强”也是“系统结构更适合模型发挥”。4.4 Agentic Topology Evolution多 Agent 结构自己演化多 Agent 系统过去常常依赖人工设计角色和流程例如 planner、executor、critic、reviewer 等。但在复杂任务中固定流程未必最优。因此Agentic Topology Evolution 研究如何让多 Agent 的通信结构、角色分配、团队规模和协作拓扑自动搜索或动态调整。这类方法的核心问题是多 Agent 系统的组织形式能不能也成为一个可学习、可优化、可进化的对象Model-Environment Co-Evolution未来的关键方向第三条路线也是这篇 survey 最强调的未来方向是Model-Environment Co-Evolution。前两类方法各有局限Model-Centric 方法容易缺乏外部验证可能出现错误累积、自我强化幻觉和高方差轨迹过估计Environment-Centric 方法虽然引入了外部知识和反馈但很多环境仍然是静态的、单任务的、不可扩展的。因此一个更理想的方向是不只是模型适应环境而是环境也随着模型能力变化而变化。图6模型-环境共同进化相对于前两类范式的优势图6总结了 Model-Environment Co-Evolution 的优势环境可以根据 Agent 能力动态调整难度按需提供有针对性的反馈并扩展为多任务、可验证、可持续增长的训练场。这一路线包含两个核心方向5.1 Multi-Agent Policy Co-Evolution在多 Agent 场景中环境本身可以由其他 Agent 构成。Agent 之间的协作、竞争、评价和沟通会形成一个动态学习场。例如多个 Agent 可以通过 peer evaluation 互相提供反馈也可以通过多 Agent 强化学习共同优化策略。此时环境不再是静态背景而是由其他正在学习的智能体共同组成。5.2 Environment Training另一条路线是直接训练或生成环境。理想环境应该具备几个特征能够提供可验证反馈能够根据 Agent 能力自动调整难度能够生成多样化任务能够支持长期、开放式探索。Reasoning Gym、AgentGym、Agent-World等工作都在朝这个方向发展。这也是本文的一个重要判断未来 Self-Evolving Agents 的核心挑战不只是训练更强的 Agent而是设计能够和 Agent 一起成长的环境。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】