语料蒸馏：从海量文档到结构化知识资产的工程实践

张

张建站

2026/6/2 22:17:39

10分钟阅读

大家好我是程序员小策。先做个自测——你们团队怎么管理内部文档和业务语料A. 丢到一个共享文件夹里谁用谁自己翻。B. 用 Confluence / Notion 写 wiki但搜索基本靠猜标题。C. 接入了向量数据库做 RAG但 chunk 切分很随意检索质量一言难尽。D. 有一个完整的语料蒸馏管道原始文档进去标签、摘要、结构摘录、索引全自动出来。选了 A 或 B别急——这两种在小团队阶段确实够用。但一到语料超过 500 篇、跨部门协作、AI Agent 需要精准检索的场景就会暴露硬伤搜不到、搜不准、不知道怎么搜。今天聊的就是 D 方案——语料蒸馏管道的工程落地。不是把文本丢给 LLM 让它总结那么简单而是一条从原始文档到结构化知识资产的完整生产线。问题定义为什么 RAG 最薄弱的一环是语料预处理这两年大家都在卷 RAG——混合检索、重排序、Graph RAG、Agentic RAG花样越来越多。但很少有人问一个更前置的问题你喂给 RAG 的语料本身质量过关吗现实中的企业语料长这样合同 PDF 里混杂着扫描件和电子版排版千奇百怪产品文档用 Markdown 写了一部分还有一部分在飞书文档里客服对话记录里有大量口语、错别字、不完整句式技术博客转载了七八手原文早就找不到了直接把这种原始语料切 chunk、丢进向量库检索质量天花板极低。不是检索算法不行是语料本身没经过蒸馏。语料蒸馏将原始文档经过清洗、分块、摘要、打标、结构抽取、索引等一系列处理转化为可检索、可归纳、可复用的结构化知识资产。核心概念用电影剪辑理解语料蒸馏你拍了一部电影原始素材有 200 个小时的拍摄录像。剪辑师不会把 200 小时全放给观众看。他的工作是把素材按场景分好分块 / chunking挑出每个场景里最有戏剧张力的镜头摘录 / key excerpts给每段素材打上标签——“雨夜追逐”“天台对峙”“车站离别”标签 / tagging每场戏写一句概述——“主角在天台发现搭档是卧底”摘要 / summarization最后生成一份场记表导演想找第三幕雨夜那场戏翻开场记 3 秒钟定位索引 / indexing这就是语料蒸馏的完整流程原始文档 → 清洗 → 分块 → 摘要 → 打标签 → 结构摘录 → 索引 → 检索使用原始素材企业里的 PDF、Markdown、对话记录剪辑师语料蒸馏管道场记表最终的结构化知识索引对应到技术语言语料蒸馏不追求保留原文的每一句话而是追求保留原文中的结构规律和可复用信息。蒸馏的是结构不是腔调。实现构建一条语料蒸馏管道下面这段代码来自两个企业级开源项目的核心设计——LlamaIndex 的 IngestionPipeline36k stars和 Unstructured-IO 的文档分区理念。我提取了它们的核心架构改造成一条完整的语料蒸馏管道。4.1 文档清洗与分区把 PDF 变成干净文本frompathlibimportPathfromtypingimportList,Dict,AnyimportreimportjsonclassDocumentCleaner:文档清洗器——把各种格式的原始文档变成干净的纯文本def__init__(self,min_text_length:int50):self.min_text_lengthmin_text_lengthdefclean(self,raw_text:str)-str:清洗流程去噪 → 规范化 → 过滤空段# 步骤1去除页码、页眉、页脚等噪声textre.sub(r^\d\s*$,,raw_text,flagsre.MULTILINE)textre.sub(r(Page\s*\d|第\s*\d\s*页),,text)# 步骤2统一换行和空白符textre.sub(r\r\n|\r,\n,text)textre.sub(r\n{3,},\n\n,text)# 步骤3按段切分过滤太短的噪声段paragraphs[p.strip()forpintext.split(\n\n)ifp.strip()]paragraphs[pforpinparagraphsiflen(p)self.min_text_length]return\n\n.join(paragraphs)为什么这样写min_text_length阈值很关键。设为 50 意味着少于 50 个字的段落直接丢掉——这些通常是页眉页脚残留、版权声明、或者扫描件 OCR 产生的噪声。阈值太小噪声多太大容易误删正文。50 是工程上反复调试出来的经验值。4.2 分块策略不是切得越细越好classSemanticChunker:语义分块器——按文档自然结构切分而不是机械地按字符数切def__init__(self,chunk_size:int512,chunk_overlap:int64):self.chunk_sizechunk_size self.chunk_overlapchunk_overlapdefchunk(self,text:str)-List[Dict[str,Any]]:分块生成元数据paragraphstext.split(\n\n)chunks[]current_chunk[]current_length0forparainparagraphs:para_lenlen(para)ifcurrent_lengthpara_lenself.chunk_sizeandcurrent_chunk:# 当前 chunk 满了保存它chunk_text\n\n.join(current_chunk)chunks.append({text:chunk_text,length:len(chunk_text),paragraph_count:len(current_chunk)})# overlap保留最后一个自然段跨 chunk 语义连续overlap_textcurrent_chunk[-1]ifself.chunk_overlap0elsecurrent_chunk[overlap_text]ifoverlap_textelse[]current_lengthlen(overlap_text)current_chunk.append(para)current_lengthpara_len# 最后一个 chunkifcurrent_chunk:chunk_text\n\n.join(current_chunk)chunks.append({text:chunk_text,length:len(chunk_text),paragraph_count:len(current_chunk)})returnchunks为什么这样写很多团队用text[i:i512]这种固定长度切分。问题是——一句话可能被拦腰截断检索时就会出现搜到上半句、下半句在另一个 chunk 里的尴尬。这里按自然段落切分、用最后一个段落做 overlap保证每个 chunk 是一个完整的语义单元。overlap 不是简单的字符重叠而是结构重叠。4.3 摘要与标签让机器能看懂语料classCorpusDistiller:语料蒸馏器——从清洗后的文本中提取摘要和标签def__init__(self,llm_client):self.llmllm_clientdefdistill_single(self,chunk:Dict[str,Any])-Dict[str,Any]:单篇文档的蒸馏textchunk[text][:2000]# 取前 2000 字做分析# 步骤1生成一句话摘要summaryself.llm.generate(f用一句话概括以下文本的核心内容不超过50字\n{text})# 步骤2打标签从预设标签池中匹配tagsself.llm.generate(f从以下标签库中选择最匹配的 2-4 个标签标签库[架构设计, 性能优化, 故障排查, API设计, 数据库, 部署运维, 安全合规, 团队协作, 代码规范, 测试策略] 文本{text}返回格式标签1, 标签2, 标签3)# 步骤3提取结构摘录——开头第一段最有定位价值的片段opening_excerpttext[:300]return{chunk_id:chunk.get(id),summary:summary.strip(),tags:[t.strip()fortintags.split(,)],opening_excerpt:opening_excerpt,source_length:chunk[length],paragraph_count:chunk[paragraph_count]}为什么这样写三个关键设计决策摘要不超过 50 字不是技术限制是实用主义。检索时你在列表里扫一眼 50 字的摘要就知道这篇要不要点进去200 字的摘要反而没人看。标签从预设池中匹配而非自由生成自由生成的标签会变成元数据噪声——同一篇文档今天打性能优化明天打系统调优后天的查询就搜不到了。预设池约束了标签的一致性。开头摘录固定取前 300 字对于技术文档开头 300 字通常是这篇文章要解决什么问题——这正是检索时最有价值的定位片段。4.4 管道组装像乐高一样拼起来classDistillationPipeline:蒸馏管道——将清洗、分块、蒸馏、索引串成一条流水线def__init__(self,cleaner:DocumentCleaner,chunker:SemanticChunker,distiller:CorpusDistiller):self.cleanercleaner self.chunkerchunker self.distillerdistiller self.index{}# 生产环境替换为向量数据库defrun(self,documents:List[str])-Dict[str,Any]:执行完整的蒸馏管道results[]stats{total_docs:len(documents),total_chunks:0,failed:0}fordoc_id,doc_textinenumerate(documents):try:# 第1步清洗clean_textself.cleaner.clean(doc_text)ifnotclean_text:stats[failed]1continue# 第2步分块chunksself.chunker.chunk(clean_text)stats[total_chunks]len(chunks)# 第3步蒸馏forchunkinchunks:chunk[id]fdoc_{doc_id}_chunk_{len(results)}distilledself.distiller.distill_single(chunk)results.append(distilled)# 第4步建索引这里用内存字典模拟生产环境用向量库self._index_chunk(distilled)exceptExceptionase:stats[failed]1continuestats[indexed]len(results)return{results:results,stats:stats}def_index_chunk(self,distilled:Dict[str,Any]):为每个 chunk 建立检索索引self.index[distilled[chunk_id]]{summary:distilled[summary],tags:distilled[tags],excerpt:distilled[opening_excerpt]}defsearch(self,keyword:str,tag:strNone)-List[Dict]:检索——按关键词标签过滤matched[]forchunk_id,metainself.index.items():iftagandtagnotinmeta[tags]:continueifkeyword.lower()inmeta[summary].lower()\orkeyword.lower()inmeta[excerpt].lower():matched.append({chunk_id:chunk_id,**meta})returnmatched为什么这样设计这个管道架构直接借鉴了 LlamaIndex 的IngestionPipeline设计理念——每个步骤是独立的组件通过run()方法串联。这样做的核心好处是你可以随时替换任意一个组件。今天用 LLM 打标签明天换成本地分类模型管道代码不用动。stats计数器是生产环境的监控探针——语料多了之后你一定会想知道失败的文档是哪些、为什么失败。没有 stats 的管道是不完整的。边界与陷阱蒸馏管道最容易翻车的四个瞬间看起来很清晰了对吧但实际跑起来有几个坑是绕不过去的。陷阱一摘要质量参差不齐。LLM 生成的摘要有时跑偏——把一篇讲MySQL 索引优化的文档总结成了数据库使用方法。根源是前端截断时没把核心段落传给 LLM。解法传给 LLM 做摘要时优先取文档的前 20% 和后 20%——绝大多数技术文档开头写背景、结尾写结论中间是细节展开。开头结尾的组合比全文中间部分更有摘要价值。陷阱二新语料进来时索引漂移。你给语料库加了 50 篇新文档重建索引后发现旧文档的索引 ID 全变了。解法使用内容哈希SHA256作为 chunk ID而不是自增数字。chunk_id sha256(chunk_text)[:16]——内容不变ID 就不变。陷阱三标签膨胀。最开始设了 10 个标签三个月后变成了 47 个。解法定期跑标签分布统计合并低频标签、拆分高频标签。维护标签池比加新文档更需要纪律。陷阱四管道本身变成瓶颈。1000 篇文档串行蒸馏要跑 2 小时。解法见下一节。高级考量多进程并行与增量更新文档规模上来后串行处理不可接受。LlamaIndex 的IngestionPipeline提供了多进程 supportfromconcurrent.futuresimportProcessPoolExecutorclassParallelDistiller:多进程蒸馏——把文档分片后并行处理def__init__(self,pipeline:DistillationPipeline,num_workers:int4):self.pipelinepipeline self.num_workersnum_workersdefrun_batch(self,documents:List[str])-Dict[str,Any]:# 将文档均匀分片batch_sizelen(documents)//self.num_workers1batches[documents[i:ibatch_size]foriinrange(0,len(documents),batch_size)]# 并行跑每个分片withProcessPoolExecutor(max_workersself.num_workers)asexecutor:resultslist(executor.map(self.pipeline.run,batches))# 合并统计merged{results:[],stats:{total_docs:len(documents)}}forrinresults:merged[results].extend(r[results])forkin[total_chunks,failed,indexed]:merged[stats][k]merged[stats].get(k,0)r[stats][k]returnmerged另一个工程关键点是增量蒸馏——不是每次新增文档都要全量重建。做法很简单给管道加一个last_run_timestamp追踪字段只处理mtime last_run_timestamp的文档新产生的 chunk 追加到索引里不重建已有索引。项目实战在 AI 写作系统中落地语料蒸馏去年我在一个小说多 Agent 写作系统中为写作参考语料库搭建了蒸馏管道。场景系统需要从 82 篇高质量小说范文中提取可复用的写作规律。不是让模型背诵原句而是让它能检索到这种文怎么起势、怎么写对白、怎么留章末。方案落地82 篇小说原文按 UTF-8 编码入库第一行为标题后续按自然段分行清洗阶段过滤掉字数过短 30 字的噪声段落分块按自然章节拆分每个章节作为一个检索单元蒸馏阶段自动为每篇小说生成四类固定的结构摘录开头钩子前 500 字主角亮相第一次出场的段落高张力对白对白密度最高的一段结尾余韵最后 300 字自动打标签题材标签真假千金、重生逆袭、风格标签甜宠、虐恋、结构标签危机开局、身份反差生成imitation_index.md作为总索引检索命令一键定位实际效果模型在写作时检索本地范本的速度从手动翻文件夹 5 分钟变成命令行秒级返回生成的小说开头质量有显著提升——有了可参考的结构范本不再产出千篇一律的AI 味开头补样本时只需执行python build_corpus.py一键重建蒸馏资产踩坑记录标签准确率不是 100%。自动打的标签大约 80% 准确剩余 20% 需要人工校验一轮。没有校验环节的自动标签系统最终会变成噪音源。文本编码问题是最隐蔽的坑。混入一个 GBK 编码的文件整个管道直接报错。入库时必须统一校验编码。蒸馏规则需要持续迭代。不是你写一次规则就能一劳永逸——语料类型变了规则也得跟着变。对比表格语料管理方案一览方案核心思路检索精度维护成本适用场景共享文件夹全文搜索按文件名内容关键词搜索低搜不到/搜不准极低语料 50 篇的小团队Wiki 分类目录人工建目录树页面内搜索中依赖人工分类质量高人工维护团队内部知识库向量化 RAG无预处理直接切 chunk 入向量库中噪声多中语料比较干净的场景语料蒸馏管道 RAG清洗→分块→标签→摘要→索引→向量化高初期高稳定后低语料 100 篇AI Agent 需要精准检索一句话总结语料越脏、规模越大、Agent 越依赖检索质量语料蒸馏的价值就越明显。面试追问追问 1语料蒸馏和 ETL 有什么区别回答方向概念上有交集但目的不同。传统 ETLExtract-Transform-Load的目标是把数据从 A 格式转到 B 格式侧重数据搬运。语料蒸馏的目标是从原始文本中提取可复用的知识结构——摘要、标签、结构摘录这些是 ETL 不关心的。你可以把语料蒸馏理解成加了知识提取层的 ETL。追问 2蒸馏管道的标签体系怎么设计回答方向从业务需求反推而不是从技术能力正推。先问用户会怎么搜再设计标签。比如用户会搜怎么优化慢查询那就应该有性能优化标签用户会搜哪个方案适合分布式部署那就应该有架构设计标签。标签数量控制在 10-30 个之间——太少覆盖不全太多失去聚合意义。定期做标签分布统计合并低频标签。追问 3蒸馏出来的摘要直接用 LLM 生成还是用传统抽取式摘要回答方向看场景。如果语料结构规范如技术文档抽取式摘要取首段尾段关键词句更快、更稳定、成本更低。如果语料杂乱如客服对话生成式摘要能更好地提炼核心信息。实际工程中通常混合使用先抽取再生成抽取做兜底。语料蒸馏不是在存文档而是在存知识的结构。读完这篇你应该能说清楚语料蒸馏和 RAG 检索增强的关系、理解清洗→分块→蒸馏→索引的完整链路、用 LlamaIndex 的 IngestionPipeline 搭建自己的蒸馏管道、在面试时说出蒸馏的是结构规律不是原句复刻而不只是我知道要清洗数据。下一步建议如果你想把蒸馏管道和生产环境打通可以看看 LlamaIndex 的DocstoreStrategy文档去重策略和 Unstructured-IO 的多格式文档解析——它们是蒸馏管道走向企业级的关键组件。