首篇自进化智能体系统技术报告出炉:Token成本直降近10倍,省钱又高效!
来源机器之心当 AI 智能体不再只是「一次性工具」而是能够持续学习、自我进化的「数字伙伴『数字同事』会发生什么自进化智能体应该采取怎样的设计原则全球首个基于「上下文信息密度最大化」设计原则的自进化智能体系统 ——GenericAgentGA正式发布其技术报告。报告显示GA 能在保持任务准确率前提下比同类竞争对手节省近 10 倍 Token。报告深度解读了 GA 的核心设计理念介绍了自进化智能体的评测基准并给出了评测数据全面剖析 GA 的自进化能力以及智能体设计的可靠思路整个报告长达 47 页今天大家可以一睹为快Github 实时更新版本链接https://github.com/lsdefine/GenericAgent/blob/main/assets/GenericAgent_Technical_Report.pdfarxiv 版本链接https://arxiv.org/abs/2604.17091GA 是什么GenericAgentGA是复旦大学知识工场实验室旗下 A3 实验室Advantage AI Agent 实验室与深圳夸夸菁领科技有限公司合作构建的一个通用型、自进化 LLM 智能体系统。GA 是下一代自组织、自学习、自进化的通用智能体的代表之一是一个拥有「生命感」能够在用户使用调教下快速学习与成长的数字生命。GA 技术的商业应用版是 DinTal Claw旨在将这一自进化架构深度应用于政企场景打造低成本、高效率、安全可控的「数智员工」实战标杆。GA 自 2026 年 1 月 11 日开源以来一度在 github trending python 编程语言登顶第一。力压OpenAI、Google 等头部AI企业的开源系统。先上结论GA 强在哪任务完成率更高在多个基准测试中GA 实现 100% 准确率全面领先主流智能体系统Token 消耗更低相同任务下Token 消耗仅为主流智能体系统的 15%-35%省钱又高效越用越聪明重复执行相同任务时Token 消耗可降低高达 89.6%真正实现「经验复用」网页浏览更强在复杂多跳搜索任务中准确率是基线系统的 3 倍同时消耗更少资源。GenericAgent 整体架构图为什么你需要关注 GA最近从 Claude Code、OpenAI Codex 到 OpenclawAI 正在从被动的文本生成器转变为能够主动操作终端、文件系统、浏览器的「目标导向型代理」。但是一个直接的问题摆在用户面前「他们真的好用吗」智能体「记性差」聊着聊着就忘了传统智能体随着交互增多上下文越来越长即「上下文爆炸」。关键信息反而被淹没。结果就是步骤越多出错率越高。每次任务都从零开始经验无法积累今天总结的经验明天换个会话就没了。智能体一直在「重复造轮子」。Token 消耗随任务数量线性增长但有效能力却保持停滞形成一个没有累积交互回报的「停滞循环」。核心洞见信息密度才是关键面对这些问题研究团队提出了一个重磅观点长周期性能的决定因素不是上下文长度而是在有限的上下文预算内能够维持多少与决策相关的信息。换句话说上下文信息密度才是核心。通过最大化上下文信息密度可以保证决策信息不遗漏、冗余信息被消除、上下文可读性高次要但重要。GenericAgent四大机制打造自进化智能体基于「上下文信息密度最大化」这一核心原则GA 通过四个紧密关联的组件实现了 Agent机制一最小原子工具集工具最小化不是限制而是 GA 在减少交互开销的同时保持通用能力的核心机制。GA 只保留了 9 个原子工具分为五类能力文件操作、代码执行、网页交互、记忆管理、人在回路。并且这几个原子工具能够通过组合泛化造出新的工具来解决复杂任务。有趣的是仅「code_run」这一个工具在理论上就是图灵完备的可以复制所有其他工具的功能。那为什么还要保留其他 8 个工具答案是最小原子工具集可以降低任务的决策成本。上表为长程复杂任务结果。五项任务涵盖文档生成PDF/PPT 创建、SQL 协作查询生成、实验分析报告撰写、结合网络检索的采购决策以及研究论文复现可行性分析本表报告的是长程任务集上的平均结果。机制二分层按需记忆记忆的核心是按需存取。GA 的关键设计是默认仅注入元记忆和 L1 索引层遵循 L1→L2/L3 路由链仅在需要时检索更深层的事实或程序知识。这样记忆不会稳步挤占当前任务所需的活跃上下文预算。GA 将记忆组织为四层架构L1 索引层紧凑指针包括高频入口点、关键词映射和少量硬约束L2 事实层经过验证且稳定的事实信息长期有效L3 SOP 层可复用的程序性知识包括任务工作流、前置条件、关键执行步骤、常见失败案例及相应调试 / 恢复策略L4 原始会话存档层历史执行会话用于持久化和可追溯性。更巧妙的是随着 L2 和 L3 增长L1 保持有界。每个 L1 条目仅记录知识类别的「存在性」—— 而非其内容。这种极端压缩之所以可行是因为 LLM 本身充当解码器一旦它识别出相关能力或事实存在就可以通过工具调用从更深层检索完整内容。上表为 GA 等在 LoCoMo 上的长期事实记忆评估。GA 基于自身优越的记忆架构设计确保了记忆的高效召回。机制三自进化机制GA 将自进化是一个显式且可检查的流程。什么在进化解决任务的 策略而非原子工具。工具接口和用户交互是任务无关的在运行时保持不变。相反所有任务特定能力都编码在 SOP 文件和可复用脚本中。知识如何积累 通过分层记忆GA 确保在一个会话中获得的知识在后续会话中立即可用。进化的质量如何控制 GA 在低记忆层级L4保留原始行动轨迹但不允许它们直接向上传播。L3 的可复用程序仅通过显式整合步骤创建在子目标完成或成功从失败中恢复等有意义的时间点触发。在相同任务五次重复运行中只有 GenericAgent 随着任务经验的积累不断提升工作效率。机制四上下文截断与压缩GA 聚焦于压缩而非扩展 —— 将更高密度的信息打包到更小的窗口中优于将稀释的内容输入更大的窗口。GA 使用四种不同粒度的上下文修剪机制工具输出截断控制单个消息的大小标签级压缩从旧消息中移除低价值片段消息驱逐当整体预算超出时移除最旧内容工作记忆锚点提示词确保任务关键信息在驱逐后保持可见。这四种机制协同工作确保活跃上下文不随交互轮数线性增长。在安装 20 个技能并经过高强度使用后只有 GA 有效防止了上下文膨胀。评估结果效率与性能的双重胜利研究团队在多个基准测试上对 GA 进行了全面评估。核心结论性能更强成本更低先来看最硬核的评测结果。在 SOP-bench、Lifelong AgentBench 和 RealFinBench 三大基准测试中GA 的表现堪称惊艳。在 SOP-bench 和 Lifelong AgentBench 上GA 以 100% 的准确率全面领先在更贴近真实场景的 RealFinBench 上GA 以 65% 的准确率登顶行业第一。同等任务下GA 的 Token 消耗仅为其它主流智能体系统的 15% 到 35%真正做到了「花小钱办大事」。任务完成率与 Token 效率对比图越用越聪明重复执行效率跃迁GA 自进化能力保证了它的高效。当其他系统在重复执行同类任务时耗时和 Token 消耗基本是一条直线只有 GA 越用越好用。5 次重复运行后运行时间从 102 秒降至 66 秒Token 消耗从 20 万直接腰斩至 10 万。这不是简单的缓存复用而是 GA 把第一次试错的经验自动提炼成了可复用的标准操作流程让后续任务真正实现了「站在肩膀上出发」。重复运行效率提升曲线图这种进化能力还能跨任务泛化。在 8 个不同网页任务的重复测试中GA 后续执行的 Token 消耗平均下降 79.3%最高单任务节省达 92.4%。任务越复杂、依赖链条越长节省效果越显著。相比之下主流智能体系统在多次运行中数据波动不定仍在重复探索而 GA 展现出清晰的「冷启动→快速收敛」模式真正学会了如何学习。跨任务 Token 收敛对比图长期进化从「学徒」到「专家」的蜕变长期进化的性能更高。第一轮执行时GA 需要 7 分 30 秒、调用 32 次大模型、消耗 22.2 万 Token而到了第九轮仅需 1 分 38 秒、5 次调用、2.3 万 Token 即可完成同等任务Token 消耗减少 89.6%调用次数减少 84.4%。这种从探索到执行、从文本 SOP 到可执行代码的进化不是人工干预的结果而是系统自主完成的。九轮进化轨迹数据图网页浏览在混乱中保持清醒网页是智能体的「终极考场」一个网页的访问动辄为 Agent 引入上百万 token 开销而 GA 在这里同样表现出色。在最具挑战的 BrowseComp-ZH 多跳推理任务中GA 准确率达到 0.60是主流智能体系统 0.20 的整整 3 倍同时 Token 消耗仅为其三分之一在真实网页任务中GA 以 0.26M Token 获得 0.577 分主流智能体系统消耗 0.76M Token 仅得 0.50 分。面对海量 HTML 噪声和动态 DOM 元素GA 的上下文压缩与分层记忆机制展现出压倒性优势真正做到「在复杂环境中不迷路」。网页浏览性能对比图关键发现重新思考智能体设计从 GenericAgent 的开发中研究团队提炼出五个关键发现这些发现对 LLM 智能体系统的设计具有广泛相关性。发现一上下文信息密度是结构性约束上下文信息密度不是「可选」的优化目标而是每个智能体系统必须通过设计面对的结构性约束。只要智能体使用 LLM 作为其推理引擎每个决策步骤的质量最终在单次前向传播内确定无论工具、记忆容量或工作流复杂度如何都无法规避此约束。发现二存在智能体系统的最小完备能力集在信息密度的结构性约束下智能体只需实现三种能力。任何不服务于这三种能力之一的设计都在引入额外复杂度从而降低信息密度。工具接口智能体与外部世界交互的唯一通道上下文管理对应于语言模型的输入任务状态、中间结果、工具输出和所有其他内容在进入上下文前必须主动过滤记忆形成对应于跨任务知识积累如果不将交互中验证的内容保留为可复用记忆每个任务都从头开始。发现三更低 Token 消耗对应更好任务性能这一发现违反直觉因为普遍假设是更长的推理链和更多交互轮次反映更彻底的深思熟虑因此应产生更好结果。然而实验结果在长周期智能体执行设置中系统地指向相反结论。在 Lifelong AgentBench 上GA 仅消耗 Claude Code 输入 Token 的 27.7% 和 OpenClaw 的 15.5%同时实现更高的 100% 任务完成率。超过某个点后额外 Token 不会引入更多有用信息反而通过位置偏差、注意力稀释和有效窗口收缩降低推理质量。消耗更多 Token 的智能体更是上下文管理的系统性失效导致的通过额外交互补偿每步决策质量的退化而非改进它。发现四权限定义智能体能力的上限智能体能接触多少环境就能获得多少智能。智能体能感知什么、能作用于什么、能从什么反馈中学习直接决定它能发展的推理链复杂度和能解决的任务难度。一个小规模沙箱中的 agent不论他多么安全他的智能水平是极其有限的。在智能体探索阶段锁定行动边界等同于在系统设计阶段预先封顶其能力上限。缩小探索边界不是构建有用智能体的路径其终点是一个安全但无用的系统。发现五最小架构是智能体自主进化的必要前提开发团队提出一个新的、更长远意义的「自进化」三个维度技能整合自主探索架构自更新因此当架构足够精简时Agent 可以审视和修改自身最终实现 Agent 的自进化。一个拥有数十万行代码的系统对智能体是不透明的 —— 它既无法理解也无法修改。相比之下几千行的核心代码库是可读、可理解、可修改的。在 GA 的最小架构中作为原生执行面的自托管 CLI 自然使子智能体能够读取和修改核心代码库使架构自更新成为实际的、可实现的。结语智能体的可靠方向GenericAgent 的技术报告拆解出了一套全新的智能体架构设计框架它揭示了大量现有 Agent 的设计是盲目的。GenericAgent 仅用 3000 多行核心代码实现的能力充分展示了智能体未来发展的无限前景。GenericAgent 自 2026 年 1 月 11 日起已经开源目前在 Github 已获超过 5.2K Star进入 Github 趋势榜。欢迎大家一起见证智能体的进化时刻开源链接https://github.com/lsdefine/GenericAgentGA 小白使用指南图文版本: https://my.feishu.cn/wiki/CGrDw0T76iNFuskmwxdcWrpinPbGA 官方教程https://github.com/datawhalechina/hello-generic-agent敬请关注 GenericAgent 的商业落地版本更智能、更省钱、更安全、更稳定的 Dintal Claw 的最新动态阅读最新前沿科技趋势报告请访问21世纪关键技术研究院的“未来知识库”未来知识库是“21世纪关键技术研究院”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告加入未来知识库全部资料免费阅读和下载牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》麦肯锡超级智能机构赋能人们释放人工智能的全部潜力AAAI 2025 关于人工智能研究未来研究报告斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页壳牌2025 能源安全远景报告能源与人工智能57 页盖洛普 牛津幸福研究中心2025 年世界幸福报告260 页Schwab 2025 未来共生以集体社会创新破解重大社会挑战研究报告36 页IMD2024 年全球数字竞争力排名报告跨越数字鸿沟人才培养与数字法治是关键214 页DS 系列专题DeepSeek 技术溯源及前沿探索50 页 ppt联合国人居署2024 全球城市负责任人工智能评估报告利用 AI 构建以人为本的智慧城市86 页TechUK2025 全球复杂多变背景下的英国科技产业战略韧性与增长路径研究报告52 页NAVEX Global2024 年十大风险与合规趋势报告42 页《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页2025 - 2035 年人形机器人发展趋势报告 53 页Evaluate Pharma2024 年全球生物制药行业展望报告增长驱动力分析29 页【AAAI2025 教程】基础模型与具身智能体的交汇350 页 pptTracxn2025 全球飞行汽车行业市场研究报告45 页谷歌2024 人工智能短跑选手AI Sprinters捕捉新兴市场 AI 经济机遇报告39 页【斯坦福博士论文】构建类人化具身智能体从人类行为中学习《基于传感器的机器学习车辆分类》最新 170 页美国安全与新兴技术中心2025 CSET 对美国人工智能行动计划的建议18 页罗兰贝格2024 人形机器人的崛起从科幻到现实如何参与潜在变革研究报告11 页兰德公司2025 从研究到现实NHS 的研究和创新是实现十年计划的关键报告209 页康桥汇世Cambridge Associates2025 年全球经济展望报告44 页国际能源署2025 迈向核能新时代麦肯锡人工智能现状组织如何重塑自身以获取价值威立Wiley2025 全球科研人员人工智能研究报告38 页牛津经济研究院2025 TikTok 对美国就业的量化影响研究报告470 万岗位14 页国际能源署IEA能效 2024 研究报告127 页Workday 2025 发挥人类潜能人工智能AI技能革命研究报告20 页CertiKHack3D2024 年 Web3.0 安全报告28 页世界经济论坛工业制造中的前沿技术人工智能代理的崛起》报告迈向推理时代大型语言模型的长链推理研究综述波士顿咨询2025 亚太地区生成式 AI 的崛起研究报告从技术追赶者到全球领导者的跨越15 页安联Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告33 页IMT2025 具身智能Embodied AI概念、核心要素及未来进展趋势与挑战研究报告25 页IEEE2025 具身智能Embodied AI综述从模拟器到研究任务的调查分析报告15 页CCAV2025 当 AI 接管方向盘自动驾驶场景下的人机交互认知重构、变革及对策研究报告124 页《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页《面向科学发现的智能体人工智能进展、挑战与未来方向综述》全国机器人标准化技术委员会人形机器人标准化白皮书2024 版96 页美国国家科学委员会NSB2024 年研究与发展 - 美国趋势及国际比较51 页艾昆纬IQVIA2025 骨科手术机器人技术的崛起白皮书创新及未来方向17 页NPLBeauhurst2025 英国量子产业洞察报告私人和公共投资的作用25 页IEA PVPS2024 光伏系统经济与技术关键绩效指标KPI使用最佳实践指南65 页AGI 智能时代2025 让 DeepSeek 更有趣更有深度的思考研究分析报告24 页2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告37 页华为2025 鸿蒙生态应用开发白皮书133 页《超级智能战略研究报告》中美技术差距分析报告 2025欧洲量子产业联盟QuIC2024 年全球量子技术专利态势分析白皮书34 页美国能源部2021 超级高铁技术Hyperloop对电网和交通能源的影响研究报告60 页罗马大学2025 超级高铁Hyperloop第五种新型交通方式 - 技术研发进展、优势及局限性研究报告72 页兰德公司2025 灾难性网络风险保险研究报告市场趋势与政策选择93 页GTI2024 先进感知技术白皮书36 页AAAI2025 人工智能研究的未来报告17 大关键议题88 页安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告威达信2025 全球洪水风险研究报告现状、趋势及应对措施22 页兰德公司迈向人工智能治理研究报告2024EqualAI 峰会洞察及建议19 页哈佛商业评论2025 人工智能时代下的现代软件开发实践报告12 页德安华全球航空航天、国防及政府服务研究报告2024 年回顾及 2025 年展望27 页奥雅纳2024 塑造超级高铁Hyperloop的未来监管如何推动发展与创新研究报告28 页HSOAC2025 美国新兴技术与风险评估报告太空领域和关键基础设施24 页Dealroom2025 欧洲经济与科技创新发展态势、挑战及策略研究报告76 页《无人机辅助的天空地一体化网络学习算法技术综述》谷歌云Google Cloud2025 年 AI 商业趋势白皮书49 页《新兴技术与风险分析太空领域与关键基础设施》最新报告150 页《DeepSeek 大模型生态报告》军事人工智能行业研究报告技术奇点驱动应用加速智能化重塑现代战争形态 - 25030940 页真格基金2024 美国独角兽观察报告56 页璞跃Plug and Play2025 未来商业研究报告六大趋势分析67 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页未来今日研究所 2025 年科技趋势报告第 18 版 1000 页模拟真实世界多模态生成模型的统一综述中国信息协会低空经济分会低空经济发展报告2024 - 2025117 页浙江大学2025 语言解码双生花人类经验与 AI 算法的镜像之旅42 页人形机器人行业由 “外” 到 “内” 智能革命 - 25030651 页大成2025 年全球人工智能趋势报告关键法律问题28 页北京大学2025 年 DeepSeek 原理和落地应用报告57 页欧盟委员会 人工智能与未来工作研究报告加州大学伯克利分校面向科学发现的多模态基础模型在化学、材料和生物学中的应用电子行业从柔性传感到人形机器人触觉革命 - 25022635 页RT 轨道交通2024 年中国城市轨道交通市场数据报告188 页FastMoss2024 年度 TikTok 生态发展白皮书122 页Check Point2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议57 页【AAAI2025 教程】评估大型语言模型挑战与方法199 页 ppt《21 世纪美国的主导地位核聚变》最新报告沃尔特基金会Volta Foundation2024 年全球电池行业年度报告518 页斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页国际科学理事会2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告英文版118 页光子盒2025 全球量子计算产业发展展望报告184 页奥纬论坛2025 塑造未来的城市研究报告全球 1500 个城市的商业吸引力指数排名124 页Future Matters2024 新兴技术与经济韧性日本未来发展路径前瞻报告17 页《人类与人工智能协作的科学与艺术》284 页博士论文《论多智能体决策的复杂性从博弈学习到部分监控》115 页《2025 年技术展望》56 页 slides大语言模型在多智能体自动驾驶系统中的应用近期进展综述【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用皮尤研究中心2024 美国民众对气候变化及应对政策的态度调研报告气候政策对美国经济影响的多元观点审视28 页空间计算行业深度发展趋势、关键技术、行业应用及相关公司深度梳理 - 25022433 页Gartner2025 网络安全中的 AI明确战略方向研究报告16 页北京大学2025 年 DeepSeek 系列报告 - 提示词工程和落地场景86 页北京大学2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用99 页CIC 工信安全2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告42 页中科闻歌2025 年人工智能技术发展与应用探索报告61 页AGI 智能时代2025 年 Grok - 3 大模型技术突破与未来展望报告28 页上下滑动查看更多