基于MCP协议与MongoDB构建AI记忆库：从原理到工程实践

张

张建站

2026/5/15 11:45:17

10分钟阅读

1. 项目概述一个为AI应用量身定制的记忆中枢最近在折腾AI应用开发特别是那些需要长期记忆和上下文管理的场景比如智能客服、个性化助手或者游戏NPC。一个核心痛点就是如何让AI记住过去几轮、甚至几天前的对话细节并在需要时精准调取传统的做法要么是把整个对话历史一股脑塞进提示词很快会超长要么就是依赖向量数据库做语义搜索成本高且不一定能记住“事实”。直到我遇到了一个名为Sato-Isolated/memory-bank-mcp-mongo的项目。这个名字乍一看有点复杂拆解一下其实非常清晰“Memory Bank”是核心概念一个专为AI设计的记忆存储与检索系统“MCP”指的是 Model Context Protocol一个新兴的、旨在标准化AI应用与工具交互的协议“Mongo”则点明了其底层存储引擎是 MongoDB。简单来说这是一个基于 MongoDB 数据库遵循 MCP 协议标准实现的 AI 记忆库服务器。它的价值在于为开发者提供了一个开箱即用的、标准化的“记忆”管理方案。你可以把它想象成AI应用的“海马体”专门负责将零散的对话信息结构化地存储起来并能根据当前对话的上下文智能地回忆起相关的“记忆片段”。这对于构建有“长期人格”、能进行连续深度对话的AI应用至关重要。无论你是全栈开发者、AI应用创业者还是对智能体Agent开发感兴趣的工程师这个项目都提供了一个极佳的、可落地的起点来理解和实现AI记忆模块。2. 核心设计思路为何是MCP与MongoDB的组合2.1 为什么选择Model Context Protocol在深入代码之前必须先理解 MCP。你可以把它类比为AI世界的“USB协议”。在没有MCP之前每个AI应用如基于OpenAI API或本地LLM的应用想要调用一个外部工具比如搜索网页、查询数据库、读写文件都需要针对这个工具编写特定的适配代码和提示词描述。这导致了大量的重复劳动和“烟囱式”的集成。MCP 的出现就是为了解决这个问题。它定义了一套标准协议让AI应用客户端和工具服务器能够以一种统一的方式发现、描述和调用彼此。memory-bank-mcp-mongo项目就是这样一个“工具服务器”。它对外宣称“我是一个记忆管理工具遵循MCP协议。任何兼容MCP的AI客户端比如某些AI应用框架或直接集成了MCP SDK的应用都可以用同样的方式来调用我进行记忆的存储和检索。”这种设计带来了巨大优势解耦与复用记忆功能被抽象成一个独立的服务。你的AI应用核心逻辑无需关心记忆是如何存储在MongoDB里的只需通过标准的MCP调用与记忆服务器交互。同样这个记忆服务器可以服务于任何兼容MCP的AI应用。生态兼容随着MCP生态的成长会有越来越多的工具和客户端出现。采用MCP意味着你的记忆模块天生就能融入这个生态未来可以更容易地与其它工具如日历、邮件系统协同工作。标准化接口MCP规定了工具的描述格式名称、参数、说明和调用方式JSON-RPC over stdio/SSE。这使得AI模型能更好地理解工具的能力并生成正确的调用参数。注意MCP是一个相对较新的协议由 Anthropic 公司推动。虽然生态在快速发展但相比成熟的REST API其工具和客户端的绝对数量目前还较少。选择它意味着你在拥抱未来标准的同时也需要面对一定的前沿探索成本。2.2 为什么选择MongoDB作为存储后端记忆存储不是简单的键值对。一条“记忆”可能包含用户ID、会话ID、记忆内容文本、关联的元数据如时间戳、重要性分数、情感标签、以及用于快速检索的向量嵌入。这种半结构化、嵌套且可能频繁更新和查询的数据正是文档数据库MongoDB的强项。灵活的模式记忆的结构可能会随着产品迭代而变化。今天可能只需要存储文本和时间明天可能需要加入“记忆类型”事实、观点、待办事项。MongoDB的BSON文档格式无需预先定义严格的表结构可以轻松地添加新字段非常适合快速迭代的AI项目。强大的查询能力除了基本的按用户、会话查询我们经常需要做复杂的过滤例如“查找用户A在过去24小时内所有标记为‘重要’的记忆”。MongoDB的查询语法非常丰富能够高效地支持这些操作。与向量搜索的天然结合虽然这个项目的核心可能还未集成向量检索需看具体实现但MongoDB Atlas 已经提供了原生的向量搜索功能。这意味着未来可以很方便地在同一数据库内既做精确的结构化查询又做基于语义相似度的向量检索实现“混合搜索”这将是构建强大记忆召回系统的关键。成熟的生态与可扩展性MongoDB拥有广泛的驱动支持和云服务Atlas部署和运维相对简单。当记忆数据量增长时可以利用其分片功能进行水平扩展。设计权衡当然你也可以用关系型数据库如PostgreSQL加上JSON字段来实现或者直接用专业的向量数据库如Pinecone, Weaviate。选择MongoDB是在灵活性、查询能力、开发效率和未来扩展性之间取得的一个平衡点。对于大多数从0到1的AI应用项目来说它是一个务实且强大的选择。3. 核心功能拆解与实操要点3.1 记忆的存储结构设计一个健壮的记忆系统其数据模型是基石。虽然项目源码中会有具体的Schema定义但我们可以推导出其核心设计思路。一条记忆Memory文档很可能包含以下字段{ “_id”: ObjectId(“…”), // MongoDB 唯一标识 “userId”: “user_123”, // 用户标识用于隔离不同用户的记忆 “sessionId”: “session_abc”, // 会话标识可用于区分不同对话场景 “content”: “用户表示他最喜欢的编程语言是Python因为他喜欢其简洁的语法。”, // 记忆的原始文本内容 “embedding”: [0.1, -0.2, 0.5, …], // 内容的向量嵌入可选用于语义搜索 “metadata”: { “timestamp”: ISODate(“2023-10-27T10:30:00Z”), “source”: “user_message”, // 来源user_message, ai_response, system “importance”: 0.8, // 重要性评分0-1可由AI或规则生成 “tags”: [“preference”, “programming”], // 标签用于分类 “refCount”: 5 // 被引用次数衡量记忆的活跃度 }, “summary”: “用户偏好Python语言。”, // 记忆的摘要可选用于快速预览 “createdAt”: ISODate(“…”), “updatedAt”: ISODate(“…”) }实操要点userId是必须的这是实现多租户、数据隔离的生命线。绝对不要在记忆存储中遗漏用户标识否则会导致严重的隐私和数据混乱问题。embedding字段预留即使初期不实现向量搜索也建议在Schema中为这个数组字段留好位置。未来集成时你会感谢这个决定。metadata的灵活性这是一个“万能口袋”可以把所有不确定是否单独成列的信息放进去。例如你可以在这里记录生成这条记忆的模型名称model: “gpt-4”或者当时对话的完整上下文ID。3.2 记忆的写入何时与如何存储记忆不是简单地把每句对话都存下来。无差别的存储会导致信息冗余和检索噪音。这个项目的核心逻辑之一就是实现智能的记忆提取与写入策略。触发时机通常不在每轮对话都存储而是在检测到“有价值信息”时触发。例如用户显式声明“记住我住在北京。” - 直接存储为事实记忆。AI总结提炼在一段关于项目需求的长时间讨论后AI可以主动生成摘要“用户正在规划一个个人博客系统需要支持Markdown和评论功能。” - 将此摘要存储为记忆。基于规则的检测检测到用户表达了偏好“我喜欢…”、厌恶“我讨厌…”、或个人事实“我有一只猫”时自动触发。通过MCP工具调用写入在MCP框架下记忆服务器会暴露一个或多个“工具”Tools给客户端。客户端你的AI应用在对话过程中当决定要存储记忆时会构造一个符合MCP标准的请求。例如工具名可能是store_memory参数包含userId,content,metadata等。服务器收到请求后执行数据验证并写入MongoDB。踩坑记录在早期版本中我曾尝试在客户端频繁调用存储导致数据库写入压力大且生成了大量低质量记忆。后来优化为“批处理与过滤”机制在客户端暂存潜在记忆点每隔一段时间或对话轮次由AI模型或规则引擎进行一次筛选和整合只将最重要的信息通过一次MCP调用存储起来。这大大提升了记忆的质量和系统性能。3.3 记忆的检索从海量记忆中精准召回存储是为了更好的召回。当AI进行新一轮对话时它需要从该用户浩如烟海的记忆中找到与当前话题最相关的几条。这是记忆系统的核心挑战。检索策略混合关键词/元数据过滤最基础也最快速。例如当对话上下文提到“编程”可以优先检索metadata.tags包含 “programming” 的记忆。或者检索最近24小时的记忆metadata.timestamp范围查询。向量语义搜索如果集成了将当前用户的问题或对话上下文编码成向量然后在embedding字段上进行相似度搜索如余弦相似度。这能捕捉到“我喜欢养宠物”和“用户有一只猫”之间的语义关联。混合检索Hybrid Search结合上述两者。先通过关键词过滤出一个候选集再用向量搜索在候选集内进行精排。或者并行执行两种检索然后对结果进行加权融合。这是效果最好的方式但实现也最复杂。通过MCP工具调用检索记忆服务器会暴露如search_memories这样的工具。客户端传入userId和搜索查询可能是一个问题文本也可能包含过滤条件。服务器在内部执行检索逻辑将最相关的几条记忆通常是JSON格式返回给客户端。客户端再将这几条记忆作为上下文注入到给大模型的提示词中。实操心得相关性Relevance不等于重要性Importance。一个很久以前发生的、但高度相关的事件和一个最近发生的、轻度相关的事件哪个更应该被召回这里需要设计评分算法。一个简单的公式是最终分数语义相似度分数 * 时间衰减因子 * 重要性分数。时间衰减因子可以让近期记忆权重更高。这个评分逻辑需要在检索工具内部实现。4. 部署与集成实战指南4.1 本地开发环境搭建假设你已经有了Node.js和MongoDB的环境以下是快速启动的步骤克隆项目与安装依赖git clone https://github.com/Sato-Isolated/memory-bank-mcp-mongo.git cd memory-bank-mcp-mongo npm install # 或 pnpm install / yarn install配置环境变量项目根目录下通常会有.env.example文件复制它为.env并填写你的配置。# .env 文件示例 MONGODB_URImongodb://localhost:27017/memory_bank MCP_SERVER_NAMEmemory-bank # 可选用于向量嵌入的API如果实现该功能 # OPENAI_API_KEYsk-... # EMBEDDING_MODELtext-embedding-3-smallMONGODB_URI是你的数据库连接字符串。确保MongoDB服务正在运行。启动MCP服务器npm start # 或如果是ts-node项目 npm run dev启动后服务器通常会监听标准输入/输出stdio这是MCP服务器默认的通信方式。你会看到日志输出表明服务器已就绪并公布了它提供的工具列表如store_memory,search_memories。4.2 与AI客户端集成这是最关键的一步。你需要一个支持MCP客户端的AI应用框架。以使用modelcontextprotocol/sdk为例在客户端代码中创建客户端并连接服务器import { Client } from modelcontextprotocol/sdk/client/index.js; import { StdioClientTransport } from modelcontextprotocol/sdk/client/stdio.js; async function connectToMemoryBank() { const client new Client( { name: my-ai-app-client, version: 1.0.0 }, { capabilities: {} } ); const transport new StdioClientTransport({ command: node, // 启动记忆服务器的命令 args: [/path/to/memory-bank-server/dist/index.js], // 服务器入口文件路径 }); await client.connect(transport); console.log(Connected to Memory Bank MCP server); return client; }这段代码创建了一个MCP客户端并通过标准输入输出启动并连接到了我们刚刚启动的记忆服务器。调用工具存储记忆async function storeUserPreference(userId, content) { const client await connectToMemoryBank(); try { const result await client.request(tools/call, { name: store_memory, // 工具名需与服务器公布的一致 arguments: { userId: userId, content: content, metadata: { source: ai_extraction, importance: 0.7, tags: [preference] } } }); console.log(Memory stored:, result); } catch (error) { console.error(Failed to store memory:, error); } finally { await client.close(); } }调用工具检索记忆async function getRelevantMemories(userId, query) { const client await connectToMemoryBank(); try { const result await client.request(tools/call, { name: search_memories, arguments: { userId: userId, query: query, limit: 5 // 返回最相关的5条记忆 } }); // result.content 是一个列表包含检索到的记忆 return result.content; } catch (error) { console.error(Failed to search memories:, error); return []; } finally { await client.close(); } }获取到的记忆列表你可以将其格式化成字符串作为上下文前置到发送给大语言模型如GPT-4的提示词中从而实现“记忆增强的生成”。4.3 生产环境部署考量服务器化开发时用stdio通信很方便但在生产环境更常见的做法是将MCP服务器封装成一个HTTP服务或使用更稳定的进程间通信方式。你可能需要修改服务器代码使其支持StdioServerTransport以外的传输层比如HTTPServerTransport。数据库优化索引务必在userId,sessionId,metadata.timestamp,metadata.tags等常用查询字段上创建数据库索引。如果使用向量搜索还需要创建向量索引。连接池配置MongoDB驱动使用连接池避免频繁建立连接的开销。安全性身份验证MCP协议本身可以结合传输层安全。确保你的MongoDB实例需要密码访问并且连接字符串安全。输入验证在服务器的工具处理逻辑中严格验证客户端传入的userId、content等参数防止注入攻击或非法数据。监控与日志记录重要的操作日志如记忆存储、检索请求并监控服务器的资源使用情况CPU、内存和数据库性能。5. 常见问题与排查技巧实录在实际集成和使用过程中我遇到了不少问题这里总结几个典型的问题1MCP客户端连接失败报错“无法启动子进程”。排查首先检查启动命令command和args的路径是否正确。确保记忆服务器的入口文件路径无误并且该Node.js脚本具有可执行权限。解决一个常见的技巧是先在终端手动运行一次启动命令node /path/to/server/index.js看服务器是否能独立启动并输出日志。如果可以再将完全相同的命令和参数配置到StdioClientTransport中。问题2调用工具时返回“工具未找到”错误。排查工具名name拼写错误是最常见的原因。在服务器启动日志中会明确列出它提供的所有工具名称请仔细核对。解决确保客户端请求的name与服务器公布的完全一致包括大小写。MCP工具名通常是snake_case风格。问题3检索到的记忆似乎不相关干扰了AI回答。排查这通常是检索策略或记忆质量的问题。首先检查存储的记忆内容是否干净、简洁、信息密度高。冗长、包含无关信息的记忆会污染检索结果。解决优化存储在存储前让AI对原始对话内容进行一次提炼和总结只存储核心事实或观点。调整检索尝试结合关键词过滤。例如在调用search_memories时除了query额外传入tags过滤条件缩小搜索范围。实验评分机制如果项目支持尝试调整检索中的相关性评分算法比如提高时间衰减因子的权重让系统更倾向于近期记忆。问题4随着记忆数量增长检索速度变慢。排查首先登录MongoDB使用explain()命令分析你的检索查询语句确认是否使用了索引。没有索引的全集合扫描在数据量大时必然慢。解决创建复合索引针对你的核心查询模式创建索引。例如如果最常用的查询是“按用户找最近的重要记忆”可以创建{userId: 1, “metadata.timestamp”: -1, “metadata.importance”: -1}的复合索引。分页查询不要在单次检索中尝试获取所有相关记忆使用limit严格限制返回数量。考虑归档对于非常陈旧的、importance分数很低的记忆可以将其移动到单独的“归档”集合减少主集合的数据量。问题5AI在使用了记忆上下文后回答变得冗长或重复。排查这通常是提示词工程的问题。你提供给AI的“记忆上下文”格式可能不够优化。解决不要简单地将检索到的记忆JSON数组直接拼接成字符串。尝试格式化它们例如以下是用户的历史相关信息供你参考 - [2023-10-26] 用户提到他喜欢Python编程。 - [2023-10-27] 用户说他有一只名叫“小白”的猫。清晰的格式有助于AI更好地理解和利用这些信息。同时在提示词中明确指令“请根据以上历史信息简洁自然地回应用户当前的问题避免重复历史细节。”这个项目为我们提供了一个绝佳的模版展示了如何用现代协议MCP和数据库MongoDB来构建AI的基础设施层。通过拆解它、运行它、并根据自己的需求改造它你不仅能获得一个可用的记忆模块更能深入理解AI应用架构中“状态管理”的核心思想。