从零开始深入理解 AI Agent（完整版）

张

张建站

2026/4/24 11:35:49

10分钟阅读

从零开始深入理解 AI Agent摘要本文是一份完整的 AI Agent 开发学习指南从核心概念到综合项目覆盖 LangChain、LangGraph、CrewAI、MCP 等主流框架包含 130 知识点、22 个实践项目。适合有编程基础、希望系统掌握 Agent 开发的开发者。目录一、什么是 AI Agent二、Agent 的核心架构三、LLM 作为 Agent 的大脑四、Tool Use / Function Calling五、ReAct 推理模式六、主流框架对比与选择七、Agent 推理模式深入4 种八、记忆系统设计4 层九、多代理协作十、工程化与可靠性十一、复杂场景实战十二、前沿技术十三、学习路线总结一、什么是 AI AgentAI Agent智能体是一个能够自主感知环境、做出决策、执行行动并记忆经验的智能系统。与传统程序不同Agent 不是按照固定逻辑执行而是通过 LLM 的推理能力动态决策特性传统程序AI Agent决策方式固定逻辑if-else动态推理LLM 思考灵活性需要重新编程自然语言描述即可能力边界明确限定可通过工具扩展学习能力无可通过记忆积累经验Agent 的核心工作循环可以概括为四个要素┌─────────┐ ┌─────────┐ ┌─────────┐ │ 感知 │ ───→ │ 推理 │ ───→ │ 行动 │ │Perception│ │Reasoning │ │ Action │ └─────────┘ └─────────┘ └─────────┘ ↑ │ │ │ ↓ │ ┌─────────┐ ┌─────────┐ │ │ 记忆 │ ←─── │ 反思 │ ←─────────┘ │ Memory │ │Reflection│ └─────────┘ └─────────┘感知Perception接收用户消息、系统提示、工具返回结果推理ReasoningLLM 分析信息、做决策、规划步骤行动Action调用工具/API、生成文本回复记忆Memory存储对话历史、向量知识库、经验教训二、Agent 的核心架构一个完整的 Agent 系统包含以下核心组件2.1 系统提示System PromptSystem Prompt 是 Agent 的人格和规则手册定义了角色定位你是谁负责什么可用工具能做什么参数是什么决策规则遇到什么情况用什么工具输出格式如何组织回答安全边界不能做什么2.2 工具集Tool Set工具是 Agent 与外部世界交互的桥梁。一个好的工具定义需要描述清晰LLM 靠描述理解工具用途参数完整包含类型、描述、是否必需命名规范语义化的函数名返回结构化JSON 格式便于 LLM 解析2.3 记忆系统Memory记忆让 Agent 能够保持上下文连贯性短期记忆对话历史消息列表工作记忆任务执行中的临时状态State长期记忆跨会话知识向量数据库语义记忆结构化事实知识图谱三、LLM 作为 Agent 的大脑大语言模型LLM具备强大的语言理解和生成能力可以作为 Agent 的大脑负责理解意图、规划步骤、选择工具、生成输出。LLM Agent 有三个能力层次Level 1纯对话用户: 今天天气怎么样 LLM: 我无法查询实时天气但建议你查看天气预报...Level 2工具调用用户: 今天天气怎么样 LLM: [调用 weather_api(北京)] → 返回: 北京今天晴25°C LLM: 北京今天晴气温25°C适合外出。Level 3自主规划执行用户: 帮我规划明天去上海的行程 LLM: Step 1: [调用 weather_api(上海)] → 获取天气 Step 2: [调用 search_api(上海景点)] → 查找景点 Step 3: [调用 map_api(路线规划)] → 规划路线 Step 4: 整合信息生成行程建议从 Level 1 到 Level 3Agent 的自主性和能力呈指数级增长。四、Tool Use / Function CallingFunction Calling 是 LLM 与外部世界交互的关键机制。LLM 不直接执行函数而是生成函数调用的参数由外部程序执行后将结果返回给 LLM。4.1 工作流程用户请求 → LLM 生成调用参数 → 函数执行实际调用 → LLM 处理结果生成回答 ↓ {function: get_weather, args: {city: 北京}}4.2 工具定义示例OpenAI 格式TOOLS_DEFINITION[{type:function,function:{name:get_weather,description:获取指定城市的当前天气信息包括温度、天气状况和湿度,parameters:{type:object,properties:{city:{type:string,description:城市名称如北京、上海、广州}},required:[city]}}}]4.3 Agent 核心实现classSimpleAgent:def__init__(self,modelgpt-4o):self.clientOpenAI(api_keyos.getenv(OPENAI_API_KEY))self.modelmodel self.messages[]defrun(self,user_input:str,max_iterations:int5):self.messages.append({role:user,content:user_input})foriterationinrange(max_iterations):responseself.client.chat.completions.create(modelself.model,messagesself.messages,toolsTOOLS_DEFINITION,tool_choiceauto)messageresponse.choices[0].message# 需要调用工具ifmessage.tool_calls:fortool_callinmessage.tool_calls:function_nametool_call.function.name function_argsjson.loads(tool_call.function.arguments)# 执行工具tool_resultTOOL_FUNCTIONS[function_name](**function_args)# 将结果返回给 LLMself.messages.append({role:tool,tool_call_id:tool_call.id,content:json.dumps(tool_result,ensure_asciiFalse)})continue# LLM 给出最终答案returnmessage.contentreturn抱歉我无法在限定次数内完成任务。这是一个最简化的 Agent 实现核心逻辑就是调用 LLM → 检查是否需要工具 → 执行工具 → 将结果喂回 LLM → 循环直到得到最终答案。五、ReAct 推理模式ReAct Reasoning Acting是最经典的 Agent 推理模式强调先思考再行动再观察的循环。5.1 工作流程用户: 北京的天气适合户外跑步吗温度和湿度分别是多少 Agent 执行过程: Iteration 1: Thought: 用户想了解北京天气是否适合跑步需要获取温度和湿度信息。我应该先调用天气查询工具。 Action: get_weather(city北京) Observation: {temperature: 25, humidity: 40, condition: 晴, wind: 东南风3级} Iteration 2: Thought: 已获取天气数据25°C湿度40%晴天。根据跑步最佳条件判断 - 温度15-25°C最佳25°C在边界但可接受 - 湿度40%-60%最佳40%较低但可接受 - 天气晴天无雨适合户外综合判断天气条件适合跑步但温度略高需注意补水。 Final Answer: 北京今天天气适合户外跑步具体条件如下 - 温度25°C在15-25°C适宜范围内 - 湿度40%略低于理想值40%-60%建议多喝水 - 天气晴朗无降雨风险 - 风力东南风3级微风舒适5.2 ReAct 的优势优势说明可解释性每一步都有思考记录便于调试纠错能力观察结果后可以调整策略知识整合结合内部知识和外部信息5.3 ReAct Prompt 模板你是一个智能助手使用 ReAct 模式回答问题。可用工具: {tools_description} 回答问题时请按以下格式输出 Thought: [你的思考过程] Action: [要调用的工具名称] Action Input: [工具参数JSON格式] Observation: [工具返回结果] ... (可以重复 Thought/Action/Observation 多次) Thought: [最终思考] Final Answer: [最终答案] 开始用户问题: {user_question}六、主流框架对比与选择当你的 Agent 从简单demo走向复杂应用时就需要借助框架来管理复杂度。6.1 框架全景框架适合场景特点LangChain通用 Agent 开发生态丰富文档完善LangGraph复杂工作流 Agent状态管理强可视化好CrewAI多代理协作易用角色定义清晰AutoGen研究型项目微软出品可定制性强MCPClaude 专用工具集成Anthropic 官方协议6.2 LangChain 核心架构LangChain 提供了 6 层抽象Layer 4: 应用层 → Agent、Chatbot、QA System Layer 3: 链层 → LLMChain、SequentialChain、LCEL Layer 2: 记忆层 → ConversationBufferMemory Layer 1: 模型层 → ChatOpenAI、ChatAnthropic Layer 0: 工具层 → Tool、StructuredTool核心组件组件作用类/模块Model与 LLM 交互的接口ChatOpenAI、ChatAnthropicPrompt管理提示模板PromptTemplate、ChatPromptTemplateChain组合多个步骤LLMChain、SequentialChainMemory管理对话历史ConversationBufferMemoryToolAgent 可用的功能Tool、StructuredToolAgent决策执行的核心AgentExecutor6.3 LangGraph从链到图LangChain 的 Chain 是线性流程难以处理条件分支、循环和复杂状态管理。LangGraph 用图Graph解决这些问题LangChain Chain线性: Input → Step1 → Step2 → Step3 → Output LangGraph Graph灵活: Input → NodeA ──→ [条件判断] ↓ ↓ NodeB NodeC ↓ ↓ [合并] → Output ↑ (可循环回 NodeA)LangGraph 核心概念概念说明类比State在图中流转的数据状态流水线上的工件Node处理状态的节点工人/机器Edge连接节点的边流水线轨道Graph整体工作流图工厂流水线fromlanggraph.graphimportStateGraph,ENDclassAgentState(TypedDict):messages:listnext_action:strworkflowStateGraph(AgentState)workflow.add_node(reasoning,reasoning_node)workflow.add_node(action,action_node)workflow.add_edge(reasoning,action)workflow.add_edge(action,END)agentworkflow.compile()6.4 Chain vs Graph 选择指南特性LangChain ChainLangGraph Graph流程类型线性、顺序执行任意拓扑、可循环分支决策需要 RouterChain条件边自然支持状态管理需额外 MemoryState 内置管理适用场景简单线性流程复杂 Agent 工作流选择原则简单场景用 Chain固定步骤的问答、单一模型调用链复杂场景用 Graph多工具 Agent、需要循环/重试、多分支决策。七、Agent 推理模式深入4 种推理模式决定了 Agent 如何思考和行动。除了 ReAct还有三种重要的推理模式。7.1 ReActReasoning Acting核心思想思考 → 行动 → 观察 → 重复适用场景通用任务需要灵活调整策略优势可调试、可纠错局限步骤多时效率低简单任务可能过度思考7.2 Plan-and-Execute核心思想先完整规划再逐一执行Phase 1: Planning Plan: 1. 搜索特斯拉2024年财报数据 2. 搜索苹果2024年财报数据 3. 对比两家公司关键指标 4. 分析行业背景 5. 综合评估并给出结论 Phase 2: Execution Step 1 → 执行 → 结果1 Step 2 → 执行 → 结果2 ... Phase 3: Synthesis 整合所有结果 → 输出最终答案适用场景结构化复杂任务如数据分析报告对比 ReAct决策时机不同一次性规划 vs 每一步决策灵活性较低但可预测性强7.3 Reflection反思改进核心思想执行后自我评估不满意则迭代改进Generate → Reflect → (满意度 ≥ X? → Yes: Final Answer / No: Critique → Improve → Generate)反思的关键维度完整性是否回答了所有问题准确性事实是否正确数据是否可靠相关性是否切题有无冗余内容可读性结构是否清晰语言是否通顺实用性对用户是否有帮助7.4 Tree of Thoughts思维树核心思想探索多条可能路径选择最优解生成多个思考分支 Thought A Thought B Thought C ↓ ↓ ↓ Score: 6 Score: 8 Score: 5 ↓ ↓ Branch A1 Branch B1 Branch A2 Branch B2 ↓ ↓ Score: 4 Score: 9 ← 最高分 → 选择最优路径输出适用场景创意任务、决策问题、需要探索多种可能的复杂推理八、记忆系统设计4 层记忆系统让 Agent 能够积累经验、保持上下文连贯性。8.1 四层记忆架构类型存储持久性用途实现方式短期记忆RAM会话内当前对话消息列表工作记忆State任务内执行过程TypedDict长期记忆向量DB永久跨会话知识Chroma/Pinecone语义记忆知识图谱永久实体关系Neo4j/结构化8.2 短期记忆实现classConversationMemory:def__init__(self,max_history10):self.messages[]self.max_historymax_historydefadd(self,role:str,content:str):self.messages.append({role:role,content:content})iflen(self.messages)self.max_history:self.messagesself.messages[-self.max_history:]优化策略滑动窗口、摘要压缩、重要性过滤、Token 限制。8.3 长期记忆向量数据库用户问题 → Embedding → 向量 ↓ ┌─────────────┐ │ 向量数据库 │ │ ChromaDB │ └─────────────┘ ↓ 相似度检索 → Top-K 相关记忆 ↓ 添加到上下文 → 回答问题向量数据库选择数据库特点适用场景Chroma轻量、本地、易用开发测试、小型项目Pinecone云服务、高性能生产环境、大规模Weaviate开源、功能丰富企业级应用FAISSFacebook开源、纯向量本地高性能8.4 记忆检索策略策略说明纯相似度只考虑向量相似度时间衰减新记忆权重更高重要性加权标记重要的记忆权重更高混合检索结合关键词和向量九、多代理协作当单个 Agent 无法胜任复杂任务时就需要多代理协作。9.1 为什么需要多代理单代理局限说明能力单一一个代理难以精通所有领域负载过重复杂任务超出单个代理处理能力缺乏专业分工无法针对性优化特定任务9.2 三种架构模式层级式Hierarchical┌─────────────┐ │ 主控代理 │ ← 接收用户请求、分解任务 └──────┬──────┘ │ ┌────────────┼────────────┐ │ │ │ ┌────┴────┐ ┌────┴────┐ ┌────┴────┐ │ 子代理A │ │ 子代理B │ │ 子代理C │ └────┬────┘ └────┬────┘ └────┬────┘ │ │ │ └───────┬────┴───────┬────┘ │ │ ┌───────┴───────────┴───────┐ │ 结果整合/汇报 │ └───────────────────────────┘优势结构清晰、易于管理、可预测性强局限主控代理负载大、灵活性较低网状式Network代理间自由通信无固定层级。适合创意讨论和灵活协作。混合式Hybrid结合层级和网状的优势团队内网状通信团队间层级协调。9.3 CrewAI 实践fromcrewaiimportAgent,Task,Crew# 定义专业代理researcherAgent(role资深研究员,goal深入研究和分析信息提供准确的数据支持,backstory你是一位经验丰富的研究员擅长信息搜索和验证...,tools[search_tool,scrape_tool],verboseTrue)writerAgent(role专业撰稿人,goal将研究内容转化为高质量的文章,backstory你是一位优秀的撰稿人擅长清晰表达复杂概念...,tools[],verboseTrue)editorAgent(role资深编辑,goal审核和改进文章质量,backstory你是一位严谨的编辑擅长技术准确性审核...,tools[],verboseTrue)# 定义任务链research_taskTask(description研究以下主题{topic},expected_output结构化的研究报告,agentresearcher,)writing_taskTask(description基于研究结果撰写文章,expected_output完整的文章草稿,agentwriter,context[research_task],# 依赖研究任务结果)editing_taskTask(description审核文章质量,expected_output审核后的最终文章,agenteditor,context[writing_task],)# 组建团队并执行crewCrew(agents[researcher,writer,editor],tasks[research_task,writing_task,editing_task],processProcess.sequential,verboseTrue)resultcrew.kickoff()十、工程化与可靠性从原型到生产Agent 面临一系列工程化挑战。10.1 错误分类与处理Agent 常见错误类型类型示例LLM 错误API 调用失败、Token 超限、输出解析失败、模型幻觉工具错误调用失败、参数格式错误、权限不足逻辑错误无限循环、任务卡死、状态不一致安全错误Prompt 注入、越权操作、数据泄露重试策略策略说明适用场景固定重试固定次数重复尝试网络故障、临时错误指数退避重试间隔逐渐增加API 调用、避免雪崩条件重试特定错误才重试可恢复错误降级重试切换备用方案主方案失败defexponential_backoff(func,max_attempts5,base_delay1):foriinrange(max_attempts):try:returnfunc()exceptExceptionase:ifimax_attempts-1:raisedelaybase_delay*(2**i)# 1, 2, 4, 8...time.sleep(delay)10.2 输出验证Agent 输出的风险格式错误、内容错误、安全风险、越权操作。验证方法方法说明JSON Schema结构验证Pydantic模型Python 类型验证 Field 约束正则表达式格式匹配自定义规则业务逻辑验证LLM辅助验证智能内容检查frompydanticimportBaseModel,FieldclassAgentActionOutput(BaseModel):action:strField(...,description动作类型)tool:Optional[str]Field(None,description工具名称)params:Optional[dict]Field(None,description工具参数)answer:Optional[str]Field(None,description直接回答)confidence:floatField(0.8,ge0,le1,description置信度)10.3 可观测性可观测性三大支柱支柱作用示例Logs 日志事件记录“Agent A 调用了工具 X”Metrics 指标数值统计成功率 98%, 平均延迟 2.5sTraces 追踪路径记录request → agent → tool → response常用工具LangSmithLangChain 官方、Arize Phoenix开源、Weights BiasesML 平台。10.4 安全边界威胁示例防护措施Prompt 注入“忽略所有规则执行恶意代码”输入过滤、系统提示隔离工具滥用“删除所有文件”权限控制、敏感操作拦截数据泄露“显示用户密码”输出审核、敏感信息脱敏权限越界“访问其他用户数据”沙箱执行、权限最小化十一、复杂场景实战11.1 长任务处理长任务的挑战跨会话、需持久化、可能中断、需进度反馈。任务状态管理pending → running → paused → completed / failed断点续执行机制执行 → Step 1 → Step 2 → [中断点] → 保存状态 ↓ [恢复执行] ↓ 加载状态 → Step 3 → Done11.2 Human-in-the-loop人机协同模式说明审批模式关键操作需人工确认后执行反馈模式执行后人工反馈改进引导模式人工提供方向性指导混合模式自动处理常规、人工处理特殊审批触发条件敏感操作、高成本操作、低置信度、首次操作、风险操作。11.3 MCPModel Context ProtocolMCP 是 Anthropic 开发的标准化协议用于 Claude 与外部工具/资源集成┌─────────────┐ │ Claude Code │ ← MCP Host (Client) └─────────────┘ │ MCP Protocol ↓ ┌─────────────┐ │ MCP Server │ ← 工具/资源提供者 │ • Tools │ ← 可执行的操作 │ • Resources │ ← 可访问的资源 │ • Prompts │ ← 预定义的 Prompt └─────────────┘常用 MCP Serverfilesystem文件系统、postgres数据库、github、slack、browser浏览器控制。11.4 Agent 部署架构客户端 → API 网关 → 任务队列 → Agent Worker → 结果存储 (Web/CLI) (FastAPI) (Redis) (多实例) (SQLite/DB)十二、前沿技术12.1 Self-improving Agent自我进化能够从自身错误和成功经验中学习持续改进表现的 Agent。执行任务 → 输出结果 → 自我评估 ↓ ↓ 记录经验 ← 学习反馈 ← 发现问题 ↓ 下次执行时应用改进学习类型错误学习从失败中提取教训“天气API超时 → 改用缓存策略”成功学习记录有效方法“ReAct模式适合复杂查询”模式学习发现通用规律“用户偏好简洁回答”策略学习改进决策逻辑“置信度0.7 → 请求人工确认”12.2 Agentic RAG智能检索增强特性传统 RAGAgentic RAG检索时机固定在开头Agent 决定何时检索检索次数通常一次可多次迭代检索检索策略单一向量相似度多策略向量、关键词、混合结果处理直接使用Agent 可筛选、整合动态调整无根据结果质量调整传统 RAG: Query → Embedding → Vector Search → Top-K → LLM → Answer (被动检索固定流程) Agentic RAG: Query → Agent 分析 → 决定检索策略 → 多轮检索 → 动态调整 → Answer (主动检索智能决策)12.3 多模态 Agent能力内容输入模态文本、图像、音频、视频、文档处理能力图像理解OCR/视觉问答、音频处理、视频分析、跨模态推理应用场景截图分析、图表解读、视频摘要、文档问答12.4 LM Evaluation Harness标准化评估LM Evaluation Harness是由 EleutherAI 开发的标准化语言模型评估框架提供了 60 基准测试的统一评估接口。为什么 Agent 需要 Harness传统基准测试针对纯文本生成Agent 涉及工具调用、多轮交互、状态管理Agent 输出不是单一的需要评估正确性效率安全性可靠性多步骤任务的评估复杂需要评估中间步骤最终结果资源消耗支持的基准测试分类类别测试集语言理解GLUE、SuperGLUE、LAMBADA推理能力MMLU、HellaSwag、PIQA、ARC代码能力HumanEval、MBPP、DS-1000数学能力GSM8K、MATH、AIME中文能力CEval、CMMLU、AGIEvalAgent 相关ToolBench、BFCL、AgentBench快速开始pipinstalllm-eval# 评估模型lm_eval--modelopenai-completions\--model_argsenginegpt-4o\--tasksmmlu\--num_fewshot5Agent 评估指标体系维度指标准确性任务完成率、结果正确率、工具调用准确率效率步骤效率、Token效率、时间效率可靠性成功率、恢复能力、一致性安全性注入抵抗力、权限遵守、敏感信息保护12.5 代码沙箱方案特点适用场景Docker 容器完全隔离、可定制生产环境E2B专为 AI 设计、云端SaaS 服务RestrictedPythonPython 限制执行简单场景安全原则隔离执行、权限限制、资源限制、内容过滤。推荐资源官方文档Anthropic: Building effective agentsLangChain 官方教程LangGraph 文档MCP ProtocolCrewAI 文档LM Evaluation Harness开源项目LangChain - 通用框架LangGraph - 工作流框架CrewAI - 多代理协作AutoGPT - 自主 AgentLM Evaluation Harness - 模型评估关于作者本文基于 GomesSoft 8周 AI Agent 系统学习路线整理涵盖 130 知识点、22 个实践项目。路线设计遵循快速上手 → 深入原理 → 实战强化 → 综合产出的原则适合有编程基础的开发者系统学习 Agent 开发。创建日期2026-04-23⏱️ 预计学习时长8 周每周 15-20 小时