GenericAgent:仅 3K 行代码,让 AI 真正住进你的电脑,而且越用越聪明
GenericAgent仅 3K 行代码让 AI 真正住进你的电脑而且越用越聪明读完这篇文章你会明白为什么一个只有 3000 行代码的项目能让 AI 自主帮你点外卖、选股票、发微信、查账单——并且越用越懂你。写在前面你有没有过这样的体验让 AI 帮你点杯奶茶它说我无法访问外卖平台让 AI 帮你查查支付宝最近的大额支出它说我无法访问你的账户让 AI 帮你给微信好友群发消息它说我没有权限操作微信每次得到的回答都是——“对不起我做不到。”GenericAgent 就是来终结这一切的。它不是一个聊天机器人而是一个能真正操作你电脑和手机的 AI Agent。它能打开你的浏览器带着你的登录状态帮你下单能通过 USB 连接你的安卓手机帮你查账单能在你的电脑上写代码、装软件、管理文件——就像一个坐在电脑前的真人助手。更厉害的是它会学习。第一次帮做某件事时可能需要摸索但第二次就能直接调用之前的经验。用得越久它越懂你。听起来很复杂但它的核心代码只有3000 行。怎么做到的往下看。一、GenericAgent 是什么一句话解释GenericAgent 一个极简的AI 驱动框架 9 个基础工具 自我进化能力打个比方你可以把 GenericAgent 想象成一个刚入职的实习生。公司只给了他 9 样工具一台电脑执行代码、一个文件柜读写文件、一个浏览器上网、一部手机操控安卓、一支笔记笔记……外加一个遇到不懂的就问老板的特权。刚来的时候他什么都不会。但每完成一次任务他就会把经验记在笔记本上。下次再遇到类似的任务他直接翻笔记本就行。三个月后这个实习生已经积累了一套只有你们公司才有的工作方法论。这就是 GenericAgent 的核心哲学不预设技能靠进化获得能力。二、它到底能做什么真实案例不要只听我说看看它实际能做到什么 场景一“帮我点一杯奶茶”你对它说“帮我点一杯奶茶。”它就会打开你电脑上的浏览器注意是你的真实浏览器淘宝/美团都是已登录状态自动导航到外卖页面搜索奶茶、选择商品、确认下单整个过程完全自主你只需要说一句话这不是演示视频里的特效而是 GenericAgent 的日常操作。 场景二“帮我筛选创业板金叉股票”你说“找出创业板 EXPMA 金叉、换手率大于 5% 的股票。”它会第一次自己安装量化分析库比如mootdx写选股脚本跑数据把整个流程固化为一个Skill第二次你说同样的话它直接调用之前保存的 Skill几秒钟出结果这就是自我进化——第一次是学习之后是肌肉记忆。 场景三“查一下支付宝近三个月超过 2000 元的支出”它通过 ADBAndroid Debug Bridge连接你的手机然后打开支付宝 App导航到账单页面筛选金额和日期汇总结果告诉你你的手机插着 USB 线连着电脑AI 就像你的手一样在手机上滑动、点击。 场景四批量发微信消息需要在微信上给 20 个人发同样的通知它直接驱动你电脑上的微信客户端一个一个聊天窗口打开粘贴消息发送。全程不需要你动一下鼠标。 场景五定时网页监控“每天早上 8 点帮我看看这几个网站有没有更新汇总成一段话发给我。”它配置好定时任务到点自动打开网页、提取关键信息、生成摘要。你早上起来直接看结果就行。三、为什么它这么强拆解核心架构很多人可能会问3000 行代码能干这么多事是不是在吹牛不是。秘密在于它的架构设计。让我用最通俗的语言解释。3.1 只有 9 个工具但能组合出无限可能GenericAgent 只给 AI 提供了9 个最基础的工具#工具名通俗解释比喻1code_run执行任意代码Python/PowerShell实习生的电脑什么软件都能装2file_read读取文件打开文件柜看资料3file_write写入/创建文件往文件柜里放新资料4file_patch精确修改文件的某一部分用涂改液改文件上的某一行5web_scan看网页上有什么内容实习生的眼睛6web_execute_js在网页上执行操作点击、输入等实习生的手在网页上操作7ask_user遇到不确定的事问你老板这个确认一下8update_working_checkpoint记短期便签防遗忘手边的便利贴9start_long_term_update把重要经验写入长期记忆记进工作手册你可能会想就这9 个工具能干什么关键在于第 1 个工具——code_run。这个工具可以执行任意代码。也就是说需要安装一个新的 Python 包→code_run执行pip install需要写一个自动化脚本→code_run创建脚本文件需要调用某个 API→code_run写请求代码需要控制硬件→code_run调用系统命令code_run是图灵完备的理论上能做任何计算机能做的事。其余 8 个工具是为了让 AI 更方便地与文件系统、浏览器和用户交互避免所有操作都绕道写代码。这就像给实习生一台电脑——只要有电脑他什么都能学、什么都能做。其他工具只是让他做事更方便的快捷方式。3.2 分层记忆为什么它不会健忘大多数 AI Agent 都有一个致命问题上一轮对话做的事下一轮就忘了。你昨天教它的东西今天它完全没印象。GenericAgent 用了一套5 层记忆系统来解决这个问题L0 元规则 → 我是一个助手我不能做坏事基本行为准则 L1 记忆索引 → 我的技能目录在第二页文件搜索方法在第五页目录 L2 全局事实 → 用户的电脑是 Windows常用编辑器是 VSCode常识 L3 任务技能/SOP → 选股的完整流程是装mootdx → 拉数据 → 计算 → 筛选方法论 L4 会话归档 → 上周二帮用户做过一次报表用的是 pandas 方案历史用一个生活化的比喻L0就像你的道德观——“我是好人不能骗人”L1就像你书架上的目录卡片——“想找菜谱去第三层左边”L2就像你的常识——“我家住在北京上班坐地铁”L3就像你的技能证书——“我会做红烧肉步骤是……”L4就像你的日记本——“2024年3月15日我做了一份红烧肉味道不错”最关键的是L1 只是索引不是全部内容。每次执行任务时Agent 只加载需要的部分到上下文中不会把所有记忆都塞进去。这就是为什么 GenericAgent 的上下文窗口只有不到30K Token而其他 Agent 要用200K 到 100 万Token。通俗理解 Token 消耗你可以把上下文窗口想象成 AI 的工作台。工作台越大桌上堆的东西越多找东西就越慢还容易拿错。GenericAgent 的做法是工作台很小但有一个高效的档案柜记忆系统需要什么拿什么用完放回去。3.3 核心循环整个 Agent Loop 只有约 100 行代码GenericAgent 的核心执行逻辑只有大约 100 行代码在agent_loop.py中它的运转方式非常简洁循环开始 ① 感知当前环境文件系统有什么、浏览器在什么页面、上一步做了什么 ② 思考下一步该做什么LLM 推理 ③ 调用工具执行9 个原子工具中的一个或多个 ④ 把这一步的经验写入记忆 ⑤ 检查任务完成了吗完成了就停止没完成回到第①步就这么简单。没有复杂的编排引擎没有多 Agent 协商没有繁琐的状态机。为什么这么简单还能完成复杂任务因为复杂度不在框架里而在 LLM 的推理能力里。框架只需要提供手和眼大脑的工作交给 LLM。3.4 浏览器控制为什么它能操作你的真实账号这是一个很多人关心的问题也是 GenericAgent 的一大亮点。大多数 Agent 框架比如 OpenClaw使用的是无头浏览器headless browser或沙箱环境。什么意思呢就是在一个虚拟的、干净的浏览器里操作。问题在于你没有登录态。想操作淘宝先登录。想查 Gmail先登录。每次都要重新来。GenericAgent 的做法完全不同它通过一个浏览器插件Chrome Extension注入你正在使用的真实浏览器。这意味着✅ 你在淘宝上已经登录了Agent 直接就能用✅ 你的 GitHub 已经登录了Agent 直接就能操作✅ 你的 B 站有会员Agent 看的视频也是会员画质不是模拟一个浏览器而是直接控制你的浏览器。这就像——别的框架给 AI 配了一台新电脑而 GenericAgent 让 AI 直接用你的电脑。四、自我进化它最与众不同的地方这是 GenericAgent 和所有其他 Agent 框架最大的区别。4.1 什么是自我进化用一个表格说清楚你说的指令第一次做第二次做第三次做“帮我监控股票”安装量化库 → 写选股代码 → 测试 → 配置定时任务 → 保存 Skill直接调用 Skill直接调用 Skill“用 Gmail 发文件”配置 OAuth → 写发送脚本 → 保存 Skill直接调用 Skill直接调用 Skill“每周生成一份周报”摸索数据来源 → 写模板 → 保存 Skill直接调用 Skill直接调用 Skill第一次是学习之后是条件反射。4.2 技能是怎么保存的当 GenericAgent 第一次完成一个复杂任务后它会自动提炼出关键步骤不是把整个对话保存而是提取方法论写成一个 SOPStandard Operating Procedure标准操作流程文件存入memory/目录这就是 L3 层记忆在 L1 索引中登记“如果用户说 XXX调用 memory/xxx_sop.md”下次你提到类似的任务Agent 先查索引找到对应的 SOP然后按照 SOP 执行。4.3 这意味着什么用几周后你的 Agent 实例将拥有一套任何人都没有的专属技能树。你的 Agent 擅长做量化分析你朋友的 Agent 擅长做文案排版。因为你们交给它的任务不同它进化的方向就不同。这就像养了一只宠物——你训练它做什么它就擅长什么。每只宠物都是独一无二的。五、跟其他 Agent 框架比好在哪里我把 GenericAgent 和当前最主流的几个 Agent 框架做了对比对比项GenericAgentOpenClawClaude Code代码量~3K 行~530,000 行大型开源项目部署难度pip install 填 API Key需要编排多个服务CLI 订阅制浏览器控制注入真实浏览器保留登录态无头浏览器/沙箱通过 MCP 插件间接控制能控制手机吗能ADB不能不能能操作键鼠吗能间接多Agent委派不能会记住经验吗会自动沉淀 Skill靠插件生态不会会话间无状态Token 消耗~30K200K~1M中等出厂自带什么几个核心文件 少量初始 Skills数百个预装模块丰富的 CLI 工具集开源协议MIT各有不同开源关键差异解读1. “真浏览器” vs “假浏览器”GenericAgent 操作的是你正在用的 Chrome/Edge不是另起一个干净的浏览器。这就像——你要让助手帮你发一封邮件OpenClaw 的做法是先给助手注册一个新邮箱而 GenericAgent 的做法是让助手直接坐在你的电脑前用你的邮箱。2. “有记忆” vs “无记忆”Claude Code 每次开一个新的对话之前做的事情全忘了。GenericAgent 会把经验保存下来下次直接用。这就像——一个每次见面都要重新自我介绍的同事 vs 一个跟你合作了三年的老搭档。3. “3K 行” vs “53 万行”代码量少意味着什么✅ 部署简单不依赖一堆服务不会因为某个组件挂了而整体崩溃✅ 容易理解你想了解它是怎么工作的花一天时间就能读完所有代码✅ 方便定制想改什么直接改不用担心牵一发动全身六、评测数据不只是自说自话GenericAgent 的技术报告已发布在 arXiv 上从五个维度进行了严格评测#评测维度通俗解释对比的基线1任务完成度 Token 效率花更少的钱做同样难的事Claude Code、OpenAI CodeX、OpenClaw2工具使用效率9 个简单工具 vs 一堆专用工具哪个更好用同上3记忆系统有效性精简分层记忆 vs 暴力塞入所有历史哪个更准含 Embedding 检索器的方案4自我进化能力做完一次后第二次真的变快了吗9 轮纵向实验5网页浏览能力在真实的网页上能准确找到信息吗WebCanvas 等基准关键发现工具使用效率GenericAgent 在 Token 消耗、API 请求次数、工具调用次数上全面领先同时任务完成质量不降跨任务自我进化在 8 个不同的 Web 任务上GenericAgent 的第二轮执行成本大幅下降第三轮趋于稳定——证明进化是真实有效的 简单来说就是花更少的钱做同样甚至更好的事而且越做越便宜。七、怎么上手手把手教你方法一一键安装推荐给非程序员Windows 用户打开 PowerShell粘贴这行命令powershell-ExecutionPolicy Bypass-cirm http://fudankw.cn:9000/files/ga_install.ps1 | iexMac / Linux 用户curl-fsSLhttp://fudankw.cn:9000/files/ga_install.sh|bash它会自动帮你准备一个独立的 Python 环境不污染你系统里的 Python下载 GenericAgent 项目文件安装桌面端 GUI安装完成后双击frontends/GenericAgent.exeWindows就能启动。方法二手动安装推荐给开发者# 1. 克隆项目gitclone https://github.com/lsdefine/GenericAgent.gitcdGenericAgent# 2. 创建虚拟环境uv venv# 3. 安装依赖uv pipinstall-e.[ui]# 4. 配置 API Key复制模板填入你的密钥cpmykey_template.py mykey.py# 用编辑器打开 mykey.py填入你的 LLM API Key# 5. 启动python launch.pyw⚠️ Python 版本推荐用3.11 或 3.12不要用 3.14有些依赖不兼容。配置 API Key 的小贴士mykey.py里怎么填核心规则很简单# 如果你的 API 是 OpenAI 兼容格式大多数国内中转站都是这种oai_config{apikey:sk-你的密钥,apibase:http://你的API地址:端口,model:模型名称,}# 如果你用的是 Claude APIclaude_config{apikey:sk-ant-你的密钥,apibase:https://你的API地址:端口,model:claude-sonnet-4-20250514,}# 如果你用的是 MiniMaxoai_minimax_config{apikey:eyJh...,apibase:https://api.minimax.io/v1,model:MiniMax-M2.7,}规则就是看变量名名字里含oai就走 OpenAI 格式含claude就走 Claude 格式。填哪个用哪个不用的删掉或留着不管都行。第一次启动后试试这些帮我在桌面创建一个 hello.txt内容是 Hello World请查看你的代码安装所有用得上的 python 依赖帮我解锁当前用户的 PowerShell ps1 执行权限 Windows 用户执行 web setup sop解锁 web 工具 解锁浏览器控制用rapidocr配置你的ocr能力并存入记忆 让 AI 能看到屏幕文字全部只需要对话不需要你手动操作任何东西。八、多种使用方式总有一款适合你️ 桌面端 GUI最推荐双击frontends/GenericAgent.exe会出现一个桌面悬浮窗直接在里面打字发指令就行。⌨️ 终端 TUI程序员最爱python frontends/tuiapp_v2.py一个基于 Textual 的终端界面支持多会话并发、实时流式输出、历史导航。有终端就能跑不需要 GUI 环境。 IM Bot随时随地控制GenericAgent 支持接入主流聊天平台你在手机上发消息电脑上的 Agent 就会执行平台怎么启动微信python frontends/wechatapp.pyQQpython frontends/qqapp.pyTelegrampython frontends/tgapp.py飞书python frontends/fsapp.py企业微信python frontends/wecomapp.py钉钉python frontends/dingtalkapp.py想象一下你在地铁上用微信给 Agent 发一句帮我把桌面上的报告发到我的邮箱等你到公司报告已经在邮箱里了。 桌面宠物最有趣GenericAgent 还有一个桌面宠物模式Agent 以一个可爱的小形象恐龙、小猫、线条小人等多种皮肤可选驻留在你的桌面上。你随时可以跟它互动。九、进阶玩法定时任务查看你的代码告诉我你的计划任务模式怎么启用配置好后你可以让 Agent 定时执行任务比如每天早上 9 点帮我看看天气预报并总结。自主探索模式查看你的代码告诉我你的自主探索模式怎么启用Agent 会自己上网浏览、探索信息、定时汇总。适合监控类任务。子 Agent 编排查看你的代码告诉我你的 subagent 模式怎么启用可以派生出多个子 Agent 并行处理不同的任务。反射模式agentmain --reflect your_script.pyAgent 会监控你的脚本运行状态出现异常时自动介入处理。所有高级模式都不需要查文档——直接问 Agent 自己就行。这就是代码即文档的理念Agent 能读懂自己的源码任何功能你都可以直接问它。十、社区和生态GenericAgent 已经有了非常活跃的社区Datawhale 官方教程Hello Generic Agent —— 手把手教你从零开始飞书图文教程新手引导Skill Hub百万级技能库Sophub —— 别人沉淀的技能你也可以直接用️政务应用“政务龙虾” DintalClaw —— GenericAgent 在政务领域的落地案例机器之心报道被国内顶级 AI 媒体报道微信交流群已经到第 18 个群了活跃度非常高社区还自发开发了多个 GUI 客户端ga-managergalley十一、我的个人思考研究完 GenericAgent 之后我有三点很深的感触1. 少即是多3000 行代码能做的事情53 万行代码的框架也能做。但 3000 行代码带来的可维护性、可理解性、可定制性是 53 万行永远比不了的。好的架构不是功能越来越多而是用越来越少代码做越来越多的事。2. 信息密度 信息量GenericAgent 的上下文不到 30K Token却能做到比 200K~1M Token 的框架更好的效果。为什么因为它不往工作台上堆垃圾而是有一个高效的档案柜分层记忆系统需要什么拿什么。这给我们的启发是与其给 AI 更大的窗口不如给 AI 更好的记忆力。3. 进化 预设大多数框架的思路是出厂预装尽可能多的功能。GenericAgent 的思路是出厂只装最基础的剩下的在使用中自己长出来。前者的问题在于预装的功能你未必用得到真正需要的功能又未必预装了。后者则保证了——Agent 擅长的永远是你真正需要的。总结最后用一张表总结 GenericAgent 的核心亮点亮点一句话自我进化每次任务自动沉淀 Skill越用越聪明形成你的专属技能树极简架构3000 行核心代码好部署、好理解、好定制⚡真实控制注入你的真实浏览器 键鼠操控 ADB 手机控制极致省钱上下文不到 30K Token成本比别人低一个数量级广泛兼容支持 Claude/Gemini/Kimi/MiniMax 等多模型Windows/Mac/Linux 跨平台随时随地微信/QQ/飞书/钉钉/Telegram 都能接入手机发指令电脑执行项目地址https://github.com/lsdefine/GenericAgent技术报告https://arxiv.org/abs/2604.17091新手教程Datawhale Hello GenericAgent如果觉得有帮助给项目点个 Star ⭐也欢迎在评论区交流你的使用体验免责声明本文基于 GenericAgent 开源项目MIT License撰写旨在技术分享与交流。