手把手教你用Python和jieba从零搭建垃圾邮件过滤器（附完整代码与TREC06数据集处理技巧）

张

张建站

2026/5/29 2:10:24

10分钟阅读

手把手教你用Python和jieba从零搭建垃圾邮件过滤器（附完整代码与TREC06数据集处理技巧）

从零构建中文垃圾邮件过滤器的实战指南1. 项目背景与核心思路每天打开邮箱我们都会面对大量未读邮件其中不乏各种推广、广告甚至诈骗信息。传统的关键词过滤方式已经无法应对日益复杂的垃圾邮件形式。本文将带你从零开始用Python实现一个基于朴素贝叶斯的中文垃圾邮件过滤器不使用现成的机器学习库而是深入算法底层理解每个环节的实现原理。这个项目特别适合想要深入理解文本分类原理的Python开发者。我们将使用TREC06公开数据集包含约6万封已标注邮件65%垃圾邮件35%正常邮件。整个过程分为五个关键步骤数据预处理提取邮件正文并匹配标签中文分词与特征提取使用jieba进行分词处理TF-IDF特征工程计算每个词的特征权重训练朴素贝叶斯分类器手动实现概率计算模型评估计算准确率、召回率等指标为什么选择朴素贝叶斯尽管它做了特征条件独立的强假设这也是朴素的由来但在文本分类任务中表现优异计算效率高特别适合作为入门项目。2. 数据处理从原始邮件到结构化数据集2.1 TREC06数据集解析TREC06数据集结构如下trec06c/ ├── data/ # 邮件内容 │ ├── 000/ # 按编号分目录 │ └── .../ └── full/ └── index # 标签文件(ham/spam)邮件正文的提取需要特别注意两点正文通常从第一个空行后开始中文邮件需要特殊编码处理import codecs import os import re def extract_email_body(filepath): with codecs.open(filepath, r, gbk, errorsignore) as f: lines f.readlines() body_start 0 # 定位正文起始行第一个空行 for i, line in enumerate(lines): if line.strip() : body_start i 1 break # 提取正文并清洗 body .join(lines[body_start:]) body re.sub(r[^\u4e00-\u9fa5], , body) # 去除非中文字符 return body2.2 标签匹配与数据整合将邮件内容与标签匹配后我们得到结构化数据邮件ID内容标签(0正常,1垃圾)00001尊敬的客户...100002会议通知...0常见问题处理编码问题尝试gbk、utf-8等多种编码路径处理Windows和Linux路径格式差异内存管理分批处理大文件3. 中文文本处理与特征工程3.1 中文分词实战使用jieba进行分词并去除停用词import jieba def chinese_segment(text, stopwords): words jieba.lcut(text) return [w for w in words if w not in stopwords] # 示例停用词表 stopwords [的, 了, 和, 是, 我, 你, 这] text 这是一封测试邮件 print(chinese_segment(text, stopwords)) # 输出[测试, 邮件]3.2 TF-IDF特征计算TF-IDF衡量词的重要性由两部分组成TF词频词在文档中出现的频率IDF逆文档频率衡量词的普遍重要性手动实现TF-IDF计算from collections import defaultdict import math def compute_tfidf(documents): # 计算词频(TF) tf [] for doc in documents: word_count defaultdict(int) for word in doc: word_count[word] 1 tf.append({w: c/len(doc) for w, c in word_count.items()}) # 计算逆文档频率(IDF) idf defaultdict(int) total_docs len(documents) for doc in documents: for word in set(doc): idf[word] 1 idf {w: math.log(total_docs/(cnt1)) for w, cnt in idf.items()} # 计算TF-IDF tfidf [] for doc_tf in tf: doc_tfidf {} for word, tf_val in doc_tf.items(): doc_tfidf[word] tf_val * idf.get(word, 0) tfidf.append(doc_tfidf) return tfidf特征选择技巧过滤极高频词如公司、服务去除低频词出现少于5次限制特征数量如保留权重最高的7000个词4. 朴素贝叶斯分类器实现4.1 算法原理朴素贝叶斯基于贝叶斯定理P(垃圾|词1,词2,...) ∝ P(垃圾) × Π P(词i|垃圾) P(正常|词1,词2,...) ∝ P(正常) × Π P(词i|正常)比较两个概率大小决定分类结果。4.2 概率计算实现def train_naive_bayes(train_data, train_labels): # 计算先验概率 total len(train_labels) p_spam sum(train_labels) / total p_ham 1 - p_spam # 计算条件概率 spam_words defaultdict(int) ham_words defaultdict(int) spam_total 0 ham_total 0 for doc, label in zip(train_data, train_labels): for word, tfidf in doc.items(): if label 1: # 垃圾邮件 spam_words[word] tfidf spam_total tfidf else: # 正常邮件 ham_words[word] tfidf ham_total tfidf # 加1平滑 vocab_size len(set(spam_words.keys()) | set(ham_words.keys())) spam_prob {w: (cnt1)/(spam_totalvocab_size) for w, cnt in spam_words.items()} ham_prob {w: (cnt1)/(ham_totalvocab_size) for w, cnt in ham_words.items()} return p_spam, p_ham, spam_prob, ham_prob4.3 分类预测def predict(text, p_spam, p_ham, spam_prob, ham_prob, stopwords): words chinese_segment(text, stopwords) log_p_spam math.log(p_spam) log_p_ham math.log(p_ham) for word in words: if word in spam_prob: log_p_spam math.log(spam_prob[word]) if word in ham_prob: log_p_ham math.log(ham_prob[word]) return 1 if log_p_spam log_p_ham else 0优化技巧使用对数概率避免数值下溢处理未登录词OOV平衡数据集重采样5. 模型评估与性能优化5.1 评估指标计算def evaluate(y_true, y_pred): tp fp tn fn 0 for true, pred in zip(y_true, y_pred): if true 1 and pred 1: tp 1 elif true 1 and pred 0: fn 1 elif true 0 and pred 1: fp 1 else: tn 1 metrics { accuracy: (tp tn) / (tp tn fp fn), precision: tp / (tp fp), recall: tp / (tp fn), f1: 2 * tp / (2 * tp fp fn) } return metrics5.2 性能优化方向特征工程优化加入n-gram特征尝试不同的停用词表使用词性过滤算法改进实现拉普拉斯平滑尝试伯努利模型集成学习方法工程优化使用稀疏矩阵存储实现增量训练加入并行计算典型评估结果指标值准确率92.3%精确率94.1%召回率89.7%F1值91.8%6. 完整实现与部署建议将所有组件整合成完整流水线class SpamFilter: def __init__(self, stopwords_file): self.stopwords self.load_stopwords(stopwords_file) self.model None def load_stopwords(self, filepath): with open(filepath, r, encodingutf-8) as f: return set(line.strip() for line in f) def train(self, texts, labels): # 分词 segmented [self.segment(text) for text in texts] # 计算TF-IDF tfidf self.compute_tfidf(segmented) # 训练朴素贝叶斯 self.model self.train_naive_bayes(tfidf, labels) def predict(self, text): return self._predict(text, *self.model) # 其他方法实现...部署建议保存模型为文件import pickle with open(spam_filter.pkl, wb) as f: pickle.dump(filter, f)构建简单的REST APIfrom flask import Flask, request app Flask(__name__) app.route(/predict, methods[POST]) def predict(): text request.json[text] return {is_spam: filter.predict(text)}集成到邮件客户端使用IMAP协议监控收件箱自动移动垃圾邮件到特定文件夹7. 扩展与进阶方向深度学习模型尝试LSTM/Transformer预训练语言模型微调多语言支持混合语言处理语言检测对抗攻击防护识别故意拼写错误处理HTML邮件用户反馈机制实现主动学习错误分类样本收集实际应用中的发现短文本垃圾邮件如点击领取奖品更难分类某些正常邮件因包含促销内容被误判随时间推移需要定期更新模型

从Prompt工程到金融实战：基于Few-shot Learning的大模型信息抽取全解析

大家好，我是你们的技术伙伴。👋在2026年的今天，大模型（LLM）已经不再是简单的聊天玩具，它正在成为金融、医疗等垂直领域的核心生产力工具。但在实际业务中，我们经常面临一个痛点：如何…...

2026/5/29 2:08:39 阅读更多 →

告别手动插拔！用ControlMyMonitor+WinHotKey，一键切换显示器信号源（保姆级教程）

一键切换显示器信号源：ControlMyMonitorWinHotKey高效解决方案每次开会前手忙脚乱地弯腰找显示器按钮切换信号源？两台电脑共用一个显示器却要反复插拔线缆？这种低效操作正在消耗你的专注力和工作时间。本文将彻底解决这个痛点，教…...

2026/5/29 2:08:25 阅读更多 →

别再只会用ln -sf了！Linux软链接冲突的三种处理姿势（以Python3为例）

超越强制覆盖：Linux软链接冲突处理的进阶实践指南当你在终端输入ln -s命令时遭遇File exists错误，是否习惯性地加上-f参数强制覆盖？这种条件反射式的操作可能正在为系统埋下隐患。本文将带你深入Linux符号链接的冲突处理艺术，从文…...

2026/5/29 2:07:34 阅读更多 →

ML模型监控工具：监控和维护机器学习模型的性能

ML模型监控工具：监控和维护机器学习模型的性能一、ML模型监控工具概述 1.1 ML模型监控工具的定义 ML模型监控工具是指用于监控和维护机器学习模型性能的软件工具。它通过收集模型的预测数据、性能指标和数据质量，帮助用户了解模型的状态，及时…...

2026/5/26 19:26:34 阅读更多 →

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略引言在 AI 技术快速发展的今天，越来越多的 AI 工具涌现出来，帮助开发者提高工作效率。但对于许多开发者来说，面对众多的 AI 产品和服务，往往感到困惑：这…...

2026/5/28 3:57:35 阅读更多 →

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-downloader 还在…...

2026/5/27 13:51:25 阅读更多 →

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案【免费下载链接】Bifrost Cross-platform tool for downloading Samsung mobile device firmware. 项目地址: https://gitcode.com/gh_mirrors/sa/Bifrost 还在为三星设备固件下载而烦恼吗&#xff…...

2026/5/26 4:45:11 阅读更多 →