基于RAG的ChatGPT文件检索工具：从原理到实践

张

张建站

2026/4/27 2:32:22

10分钟阅读

1. 项目概述与核心价值最近在折腾一个挺有意思的小工具叫chatgpt-retrieval。这名字听起来有点唬人但说白了它的核心功能就一句话让你能用 ChatGPT 来“阅读”并回答关于你自己文件内容的问题。想象一下你有一堆技术文档、会议纪要、个人笔记或者像项目里例子那样记录了你家宠物名字的文本文件。你懒得去翻或者文件太多找不到这时候直接问一句“我的狗叫什么名字”它就能从你的文件里找到答案告诉你。这其实就是把当下火热的“检索增强生成”技术用一个极简的脚本给实现了门槛非常低。我之所以花时间研究它是因为看到了一个很实际的痛点。无论是个人知识管理还是团队文档协作信息散落在各处查找效率很低。传统的全文搜索能帮你找到包含关键词的文档但往往需要你再去文档里仔细阅读才能找到确切答案。而chatgpt-retrieval这类工具结合了语义检索和大语言模型的总结归纳能力能直接给你一个精准、自然的语言回答相当于给你的私人文件库配了一个智能助手。这个项目由techleadhd发布代码结构非常清晰几乎没有冗余是学习和理解 RAG 基础流程的绝佳样板。虽然它现在看起来只是个简单的脚本但里面蕴含的构建思路——文档加载、切分、向量化存储、语义检索、提示工程——是当前所有复杂 AI 应用的基础。通过拆解它你不仅能学会怎么用更能明白背后的“为什么”以后无论是选用更成熟的开源框架还是自己动手搭建心里都会有底。2. 环境准备与依赖解析上手的第一步自然是把环境搭起来。项目给的requirements很精简就五个包但每一个都扮演着关键角色缺一不可。我们一个个来看。2.1 核心依赖包详解安装命令很简单pip install langchain openai chromadb tiktoken unstructuredlangchain这是整个项目的“骨架”和“调度中心”。LangChain 不是一个具体的模型而是一个用于开发由语言模型驱动的应用程序的框架。它提供了一套高层次的抽象把文档加载、文本分割、向量存储、检索、与大模型交互这些步骤都封装成了标准的“链”或“代理”。在这个项目里它负责协调所有环节让几行代码就能完成一个复杂的流程。没有它你就得自己写一大堆胶水代码来连接不同的组件。openai这是项目的“大脑”。我们需要通过 OpenAI 的官方 Python 库来调用 GPT 模型 API。项目里对话和生成答案的核心能力就来自于它。注意这里安装的是通用的openai库它包含了认证、请求发送和响应处理的所有功能。chromadb这是项目的“记忆库”。它是一个轻量级、嵌入式的向量数据库。当我们把文档转换成向量一组数字代表文本的语义后就需要一个地方来存储它们并且能快速进行相似度搜索。ChromaDB 就是干这个的。它会在本地运行不需要你额外部署一个数据库服务对个人项目非常友好。tiktoken这是 OpenAI 开发的一个用于 GPT 模型的分词器。为什么需要它因为 OpenAI 的 API 收费是按 Token 数可以粗略理解为词和字的片段计算的而且模型本身也有上下文长度限制。在将你的文档内容发送给 API 之前需要用tiktoken来精确计算文本的 Token 数量以确保不会超出限制同时也能预估成本。unstructured这是项目的“文件解码器”。你的数据不可能都是纯文本.txt文件可能还有 PDF、Word、PPT、HTML 甚至图片。unstructured这个库就是一个强大的文件解析工具包它能从这些各式各样的文件中把文本内容提取出来。在这个基础项目中它主要用来处理示例里的cat.pdf。注意依赖安装看似简单但却是踩坑高发区。尤其是unstructured它在处理某些文件格式如 PDF时可能需要额外的系统依赖。例如在 macOS 上你可能需要通过brew安装poppler来处理 PDF。如果安装后运行报错提示缺少某些库记得根据错误信息搜索一下对应操作系统的安装说明。一个稳妥的做法是先创建一个干净的 Python 虚拟环境再安装这些包避免与现有环境冲突。2.2 API 密钥配置与项目初始化环境包装好后接下来就是注入灵魂的一步配置你的 OpenAI API 密钥。没有这个密钥你的程序就无法访问 GPT 模型。获取 API Key按照项目说明你需要去 OpenAI 平台登录你的账户在 API Keys 页面创建一个新的密钥。创建后务必立即复制并保存好因为它只显示一次。修改配置文件项目根目录下有一个constants.py.default文件这是一个模板。你需要用文本编辑器打开它。它的内容通常非常简单核心就是一行OPENAI_API_KEY 你的-api-key-在这里将双引号内的内容替换成你刚才复制的 API 密钥。重命名文件这是非常关键且容易出错的一步你不能直接修改constants.py.default就完事。必须将它的文件名重命名为constants.py。因为主程序chatgpt.py导入的是constants模块它会寻找constants.py这个文件。如果只修改内容而不改名或者错误地创建了一个新文件都会导致导入失败程序会报错ModuleNotFoundError: No module named constants。准备数据在项目目录下确保存在data/文件夹。你可以把任何你想让 AI “阅读”的文本文件放进去。按照示例最简单的方式就是创建一个data/data.txt文件并在里面写入一些内容比如我的宠物信息 - 我养了一只狗它的名字叫 Sunny。它是一只金毛寻回犬今年3岁了非常喜欢玩飞盘。 - 我还养了一只猫它的名字叫 Muffy。它是一只英国短毛猫性格比较安静喜欢在窗边晒太阳。你也可以放入 PDF、Word 等文件unstructured库会尝试去解析它们。3. 核心流程与代码拆解环境配置妥当数据也准备好了现在我们来深入看看chatgpt.py这个脚本到底是怎么工作的。理解这个流程比单纯会用更重要。3.1 脚本执行流程全景当你运行python chatgpt.py “你的问题”时背后发生了一系列精密的操作我们可以将其概括为以下五个核心步骤文档加载与解析脚本首先会扫描data/目录下的所有支持的文件如.txt,.pdf等利用unstructured等加载器将文件内容读取为原始文本。文本分割与处理一大段完整的文档比如一本电子书不能直接塞给模型。这里会使用langchain的文本分割器将长文本按语义或固定长度切分成一个个小的“文本块”。这是为了后续建立有效的向量索引也为了在检索时能定位到最相关的片段。向量化与存储每个文本块通过 OpenAI 的text-embedding模型通常是text-embedding-ada-002被转换成一个高维向量一组数字这个过程叫做“嵌入”。然后这些向量及其对应的原始文本块被存储到本地的 Chroma 向量数据库中并建立索引。语义检索当你提出一个问题时问题文本本身也会被转换成向量。脚本会在 Chroma 数据库中搜索与“问题向量”最相似的几个“文本块向量”。这个过程就是语义检索它找到的不是关键词匹配而是含义上最相关的文档片段。提示构建与答案生成检索到的相关文本块会被组合起来作为“上下文”或“参考信息”和你原来的问题一起通过精心设计的提示模板构造成一个完整的提示词发送给 GPT 模型如gpt-3.5-turbo。模型基于这些参考信息和自身知识生成一个连贯、准确的答案最后输出给你。整个流程的核心思想是“先检索后生成”确保模型的回答牢牢扎根于你提供的文档内容减少它“胡编乱造”的可能这也就是“检索增强生成”名字的由来。3.2 关键代码模块深度解析虽然原始项目代码可能很简短但我们可以将其逻辑模块化看看每个部分是如何实现的。模块一环境初始化与文档加载# 伪代码示意逻辑 from langchain.document_loaders import DirectoryLoader, UnstructuredFileLoader from langchain.text_splitter import CharacterTextSplitter # 1. 加载文档使用 DirectoryLoader 加载 data 文件夹下所有文件 # UnstructuredFileLoader 是一个多功能加载器能处理多种格式 loader DirectoryLoader(./data, loader_clsUnstructuredFileLoader) documents loader.load() # 2. 分割文本将长文档切分成小块方便嵌入和检索 # 这里使用按字符分割并设置重叠部分保证语义的连贯性 text_splitter CharacterTextSplitter(chunk_size1000, chunk_overlap0) texts text_splitter.split_documents(documents)为什么用DirectoryLoader因为它可以批量处理一个目录下的所有文件无需手动指定每个文件名非常适合个人知识库这种场景。chunk_size和chunk_overlap的学问chunk_size决定了每个文本块的最大长度如 1000 字符。太小会丢失上下文太大会降低检索精度并增加成本。chunk_overlap设置块之间的重叠字符数如 50这能防止一个完整的句子或概念被生硬地切分到两个块中保证检索时上下文的完整性。这两个参数需要根据你的文档类型进行调整。模块二向量数据库的创建与持久化# 伪代码示意逻辑 from langchain.embeddings.openai import OpenAIEmbeddings from langchain.vectorstores import Chroma # 1. 初始化嵌入模型使用 OpenAI 的 Embeddings API # 它会自动从环境变量或 constants.py 中读取 OPENAI_API_KEY embeddings OpenAIEmbeddings() # 2. 创建向量存储将分割好的文本块转换为向量并存入 Chroma # persist_directory 指定数据库存储的本地路径这样下次运行无需重新生成 docsearch Chroma.from_documents(texts, embeddings, persist_directory./chroma_db) docsearch.persist() # 将数据持久化到磁盘嵌入模型的选择这里默认使用text-embedding-ada-002它是 OpenAI 推出的性价比很高的嵌入模型。它的任务就是把文本变成向量。所有后续的语义相似度比较都是基于这些向量进行的。持久化的价值persist_directory参数至关重要。第一次运行时会进行耗时的向量化计算并存入指定目录。之后再次运行脚本如果该目录已存在Chroma会直接加载已有的向量库无需重新处理文档极大提升了响应速度。这就是你的“知识库”本体。模块三检索链的构建与问答# 伪代码示意逻辑 from langchain.chains import RetrievalQA from langchain.llms import OpenAI # 1. 初始化语言模型指定使用哪个 GPT 模型 # temperature 控制创造性0 表示更确定和保守适合事实问答 llm OpenAI(model_namegpt-3.5-turbo, temperature0) # 2. 构建检索问答链这是 LangChain 提供的高级抽象 # 它把向量检索器docsearch.as_retriever()和语言模型llm串联起来 qa RetrievalQA.from_chain_type( llmllm, chain_typestuff, # 最常用的链类型将检索到的所有文档“堆叠”起来作为上下文 retrieverdocsearch.as_retriever(), return_source_documentsFalse # 设为 True 可以查看引用的源文档 ) # 3. 执行查询 query what is my dogs name result qa.run(query) print(result)RetrievalQA链的魔力这个链封装了最复杂的部分。你只需要提供检索器和语言模型它内部会自动完成将你的问题转换为向量 - 从向量库检索相关文档 - 将问题和检索到的文档组装成提示词 - 调用 LLM 生成答案 - 返回结果。chain_type的选择stuff是最简单直接的方式把所有检索到的文档内容都塞进提示词。如果检索到的内容很多可能会超出模型的上下文窗口。还有其他类型如map_reduce先对每个文档单独总结再汇总总结、refine迭代式精炼答案适用于处理大量文档但复杂度也更高。temperature参数在事实问答场景下通常设置为 0 或接近 0这样模型的输出更确定、更专注于提供文档中的信息减少“自由发挥”。4. 实战扩展与个性化定制基础功能跑通后你肯定不会满足于只问宠物名字。这个简单的脚本框架有巨大的扩展潜力。我们来探讨几个实用的进阶方向。4.1 支持更多文件格式与复杂文档原项目示例只提到了.txt和.pdf。unstructured库支持的类型远不止这些。你可以根据需求安装额外的依赖来增强解析能力。例如想解析 Word 和 PPTpip install “unstructured[docx, pptx]”然后你的data/文件夹里就可以放入.docx和.pptx文件了。DirectoryLoader配合UnstructuredFileLoader会自动尝试解析它们。处理复杂 PDF 的坑与技巧 PDF 可能是最棘手的格式尤其是扫描版图片 PDF。unstructured默认可能无法提取文字。这时你需要确保系统已安装popplermacOS:brew install poppler Linux:apt-get install poppler-utils。考虑使用专门的 OCR 库如pytesseract先将 PDF 页面转为图片再识别文字。但这会大大增加复杂度和运行时间。对于重要的扫描文档或许在投入向量库前先用专业的 OCR 软件处理成文本是更稳妥的选择。4.2 优化检索效果与提示工程默认设置可能不总是最优。这里有几个调优点调整文本分割策略CharacterTextSplitter是按固定字符数切割可能会切断句子。可以尝试RecursiveCharacterTextSplitter它会优先按段落、句子、单词等递归分割更好地保持语义完整性。from langchain.text_splitter import RecursiveCharacterTextSplitter text_splitter RecursiveCharacterTextSplitter( chunk_size500, # 更小的块可能对某些问题更精准 chunk_overlap50, separators[\n\n, \n, 。, , , , ] # 中文分隔符 )改进检索器as_retriever()可以接受参数。search_type默认为similarity相似度搜索也可以尝试mmr最大边际相关性它在保证相关性的同时增加结果多样性避免返回过于相似的片段。search_kwargs 控制检索数量。{k: 4}表示返回最相关的 4 个文本块。这个数字需要权衡太少可能信息不足太多可能引入噪声并增加 Token 消耗。retriever docsearch.as_retriever(search_typemmr, search_kwargs{k: 3})定制提示模板这是提升答案质量的关键。默认的提示词可能比较通用。你可以定义一个更明确的模板告诉模型如何利用上下文。from langchain.prompts import PromptTemplate custom_prompt PromptTemplate( input_variables[context, question], template请严格根据以下背景信息来回答问题。如果信息中没有明确答案请直接说“根据提供的信息无法回答此问题”不要编造。背景信息 {context} 问题{question} 答案 ) qa RetrievalQA.from_chain_type( llmllm, chain_typestuff, retrieverretriever, chain_type_kwargs{prompt: custom_prompt} # 注入自定义提示 )通过强硬的指令可以显著减少模型的“幻觉”让它的回答更忠实于你的文档。4.3 构建简单的交互界面与部署思考命令行问答毕竟不够方便。我们可以用几十行代码给它加一个简单的 Web 界面。使用 Gradio 快速搭建 UI# 文件命名为 app.py import gradio as gr from langchain.vectorstores import Chroma from langchain.embeddings.openai import OpenAIEmbeddings from langchain.chains import RetrievalQA from langchain.llms import OpenAI # 加载已有的向量数据库 persist_directory ./chroma_db embeddings OpenAIEmbeddings() docsearch Chroma(persist_directorypersist_directory, embedding_functionembeddings) # 创建 QA 链 llm OpenAI(temperature0) qa RetrievalQA.from_chain_type(llmllm, chain_typestuff, retrieverdocsearch.as_retriever()) # 定义问答函数 def answer_question(question): result qa.run(question) return result # 创建 Gradio 界面 iface gr.Interface( fnanswer_question, inputsgr.Textbox(lines2, placeholder请输入关于您文档的问题...), outputstext, title个人文档智能助手, description基于您的本地文档进行问答。请先确保已运行脚本构建了向量数据库。 ) iface.launch(shareFalse) # 设置 shareTrue 可生成临时公网链接运行python app.py就会在本地启动一个 Web 服务打开浏览器就能看到交互界面了。Gradio 非常适合快速原型验证。关于部署的思考这个脚本本质上是个人工具。如果想让小团队使用需要考虑API 密钥安全绝不能把constants.py提交到公开的代码仓库。应该使用环境变量来管理密钥。# 在终端中设置 export OPENAI_API_KEY你的-key然后在代码中用os.getenv(“OPENAI_API_KEY”)读取。向量数据库更新当data/文件夹中文档有增删改时需要重新运行一次原始的chatgpt.py脚本或编写一个更新脚本来重建向量索引。可以考虑用文件监控工具自动化这个过程但要注意 API 调用成本。成本控制OpenAI API 调用是收费的。嵌入和对话都会产生费用。对于大量文档初次向量化的成本可能较高。后续问答的成本相对较低。务必在 OpenAI 平台设置用量预算和监控。5. 常见问题与故障排除实录在实际操作中你几乎一定会遇到下面这些问题。我把我的踩坑经验和解决方案记录下来希望能帮你节省时间。5.1 安装与依赖问题问题安装unstructured时失败提示缺少libmagic或类似错误。原因unstructured依赖一些系统级的库来处理文件。解决macOS:brew install libmagicLinux (Ubuntu/Debian):sudo apt-get install libmagic1Windows: 可能需要手动下载并安装libmagic的 DLL 文件或者通过 Conda 安装conda install -c conda-forge libmagic。通常建议在 Windows 上使用 WSL 进行开发。问题运行脚本时报错ModuleNotFoundError: No module named ‘constants’。原因没有正确创建或重命名constants.py文件。解决检查项目根目录下是否存在constants.py文件注意不是constants.py.default。确保你已经将修改后的模板文件重命名。5.2 运行时与 API 问题问题程序运行后长时间卡住或者报错与 OpenAI API 连接相关。原因1网络连接问题无法访问 OpenAI 服务。解决1检查网络确认其通畅。对于某些网络环境可能需要配置代理。注意此处仅讨论技术原理具体网络配置请根据当地法律法规和网络政策自行处理。原因2API 密钥无效或余额不足。解决2登录 OpenAI 平台检查 API 密钥是否启用以及账户是否有剩余额度。问题处理大量或大文件时程序报错openai.error.InvalidRequestError: This model’s maximum context length is X tokens…原因你发送给 GPT 模型的提示词问题检索到的上下文总长度超过了模型的最大上下文窗口例如gpt-3.5-turbo通常是 4096 或 16385 tokens。解决减小chunk_size在文本分割步骤使用更小的块如 500 字符。减少检索数量k让检索器返回更少的文档块如从 4 个减到 2 个。使用更高效的链类型将chain_type从stuff改为map_reduce或refine它们能处理更长的上下文但速度会慢一些且可能影响答案的连贯性。升级模型使用支持更长上下文的模型如gpt-3.5-turbo-16k或gpt-4但成本会更高。5.3 效果优化与答案质量问题问题AI 的回答完全是胡编乱造根本不在我的文档里。原因这是“幻觉”问题。可能因为检索到的文档相关性太低或者提示词没有强制模型基于上下文回答。解决强化提示词如上文所述使用自定义提示模板加入“严格根据背景信息”、“不知道就说不知道”等强硬指令。检查检索结果在创建RetrievalQA链时设置return_source_documentsTrue然后打印出来看看模型到底检索到了什么内容。如果内容不相关就需要调整文本分割方式或嵌入模型。调整检索相似度阈值有些向量数据库支持设置相似度分数阈值过滤掉分数太低即太不相关的结果。Chroma 的as_retriever可以通过search_kwargs设置score_threshold进行实验。问题答案找到了但不够精准或者包含了无关信息。原因文本块分割得不好一个块里包含了多个不相关的信息。解决优化文本分割器。尝试RecursiveCharacterTextSplitter并仔细调整separators参数使其更符合你文档的语言和结构例如中文文档的分隔符。确保chunk_overlap设置合理避免关键信息被割裂。问题每次运行都要重新生成向量太慢了。原因没有正确使用持久化功能或者代码逻辑每次都是从头创建。解决将你的代码逻辑分成两部分初始化/更新向量库脚本检查./chroma_db目录是否存在如果不存在或者用户强制更新则执行文档加载、分割、向量化并persist()。问答脚本直接加载已存在的向量库 (Chroma(persist_directory“./chroma_db”, embedding_functionembeddings))然后进行检索和问答。这样日常问答就是秒级响应。这个chatgpt-retrieval项目就像一把钥匙帮你打开了 RAG 应用的大门。它简单到足以让你在半小时内看到效果但其背后的组件和思想却足够深刻值得反复琢磨。从我自己的体验来看最大的收获不是学会了这个脚本而是通过它理解了“检索”和“生成”是如何协同工作的以及每一个环节的调优如何影响最终效果。接下来你可以用它来管理你的读书笔记、整理项目需求、甚至作为一个小型客服知识库的雏形。当它第一次从你上百页的文档中准确找到答案时那种感觉还是挺奇妙的。

Devart数据连接工具全解析与26周年庆优惠指南

1. 项目背景与核心价值Devart作为数据连接工具领域的资深厂商，在26周年庆之际推出全线产品20%折扣活动。这不仅是简单的促销行为，更是对开发者社区长期支持的实质性回馈。作为使用过多种数据库工具的老兵，我亲历过从手工编写连接字符串到可视…...

2026/4/27 2:28:22 阅读更多 →

Cincoze DS-1400工业嵌入式计算机解析与应用

1. Cincoze DS-1400系列工业级嵌入式计算机概述Cincoze DS-1400系列是专为严苛工业环境设计的嵌入式计算机解决方案，搭载英特尔第12代Alder Lake-S处理器，提供从4核到16核的多种配置选择。作为工业自动化、机器视觉和边缘计算等领域的理想平台&#xff0…...

2026/4/27 2:15:36 阅读更多 →

考场信号屏蔽器分布式信号屏蔽器手机信号屏蔽器

在当今信息时代，信号管控成为了众多场所的迫切需求。中科星月的分布式信号屏蔽器凭借其卓越的性能，成为了众多场所的理想选择。中科星月的分布式信号屏蔽器能有效屏蔽2.3.4.5G手机信号，还可屏蔽WiFi蓝牙信号。在学校考场中，曾有学…...

2026/4/27 2:03:37 阅读更多 →

PowerShell脚本编译终极指南：如何用Win-PS2EXE轻松打包脚本为EXE文件

PowerShell脚本编译终极指南：如何用Win-PS2EXE轻松打包脚本为EXE文件【免费下载链接】PS2EXE Module to compile powershell scripts to executables 项目地址: https://gitcode.com/gh_mirrors/ps/PS2EXE 还在为PowerShell脚本分发而烦恼吗？每次…...

2026/4/26 0:00:40 阅读更多 →