小白程序员必备！轻松掌握模型压缩，让你的大模型更小更快更高效（收藏学习）

张

张建站

2026/5/6 6:55:26

10分钟阅读

模型压缩技术对于在资源受限设备上部署模型至关重要。本文介绍了三种关键压缩方法模型量化、剪枝和蒸馏。量化通过降低权重和激活值的精度如FP32到INT8来减小模型大小和加速推理包括训练后量化PTQ和量化感知训练QAT。剪枝通过移除不重要的权重或连接来精简模型分为细粒度、向量、核和滤波器剪枝。蒸馏则是训练一个小模型模仿大模型的行为通过学习大模型的概率分布软标签来提升小模型的泛化能力。这三种技术常联合使用以实现极致的模型压缩效果。1. 模型量化定义量化是指降低模型权重和激活值数值精度的过程。最常见的做法是从32位浮点数转换为8位整数甚至更低。低精度模型表示模型权重数值格式为 FP16半精度浮点或者 INT88位的定点整数但是目前低精度往往就指代 INT8。常规精度模型则一般表示模型权重数值格式为 FP3232位浮点单精度。混合精度Mixed precision则在模型中同时使用 FP32 和 FP16 的权重数值格式。 FP16 减少了一半的内存大小但有些参数或操作符必须采用 FP32 格式才能保持准确度。比喻让大学者从使用精确到小数点后8位的复杂计算改为使用整数进行心算。他可能失去了小数点后的细微精度但计算速度极大提升而且需要的脑容量内存也更小了。工作原理FP3232位浮点数可以表示非常大范围且非常精确的数字但占用空间大4字节计算慢。INT88位整数只能表示256个离散的整数值占用空间小1字节计算飞快。量化的核心就是找到一个好的映射关系将FP32的数值范围尽可能无损地“挤压”到INT8的范围内。实现量化主要有两种路径训练后量化Post-Training QuantizationPTQ与量化感知训练Quantization-Aware TrainingQAT区别在于何时引入量化。PTQ核心逻辑是先将模型用高精度FP32完整地训练好然后在部署前直接对训练好的模型进行压缩量化。为了得到权重和激活值的分布范围需要使用一小部分校准数据根据统计结果直接将高精度数值映射为低精度数值。PTQ方法极其简单、快速无需重新训练不需要庞大的训练数据集是模型部署时的首选方案。不过PTQ方法精度风险较高量化可能会导致性能下降特别是对于小模型或复杂的任务。QAT核心逻辑是在模型的训练过程中就模拟量化带来的影响让模型学会适应低精度环境。QAT方法在训练时会在计算图中插入“伪量化节点”这些节点在前向传播时会模拟数值被量化舍入后的误差在反向传播时使用Straight-Through EstimatorSTE近似估计量化误差的梯度round不可导梯度绕过量化节点传递给量化前的节点。模型会在训练中不断调整参数以适应这种“噪声”最终得到一个对量化鲁棒的模型。QAT方法得到的量化模型精度更高、更稳定尤其在极低比特如INT4以下量化时能显著减少精度损失。但QAT方法成本高昂需要完整的训练过程耗时长、计算资源消耗大工程实现也更复杂。Tips实际项目中可遵循“先PTQ后QAT”的策略主要好处显著减少模型大小直接缩小约75%从32位到8位。大幅加速推理整数运算在CPU、DSP或专用硬件如NPU上比浮点运算快得多。降低功耗更小的内存访问和更简单的计算意味着更低的能耗。**挑战**精度可能会有轻微损失但通过训练后量化或量化感知训练技术可以将损失降到最低。简单来说量化就是“用更粗糙的数字来表示模型换取速度和空间的巨大收益。”2. 模型剪枝定义剪枝是指识别并移除模型中不重要的权重或连接的过程。剪枝算法步骤1. 正常训练模型2. 模型剪枝3. 重新训练模型以上三个步骤反复迭代进行直到模型精度达到目标则停止训练。模型剪枝算法根据粒度的不同可以粗分为4种粒度细粒度剪枝(fine-grained)对连接或者神经元进行剪枝它是粒度最小的剪枝。向量剪枝(vector-level)它相对于细粒度剪枝粒度更大属于对卷积核内部(intra-kernel)的剪枝。核剪枝(kernel-level)去除某个卷积核它将丢弃对输入通道中对应计算通道的响应。滤波器剪枝(Filter-level)对整个卷积核组进行剪枝会造成推理过程中输出特征通道数的改变。图片来源论文 Han et al. Learning both Weights and Connections for Efficient Neural Networks, NIPS 2015比喻让大学者忘掉那些冷僻、无用的知识只保留核心和常用的知识。比如他不需要记得全世界所有城市的电话号码只需要记住常用联系人的即可。这样他的大脑负担减轻了反应速度也更快了。工作原理评估网络中每个参数权重的重要性。最常用的标准是权重的绝对值大小绝对值越小贡献通常越小。将那些重要性低于某个阈值的权重置零相当于从网络中移除连接。对剪枝后的模型进行微调以恢复因剪枝而损失的精度。迭代进行上述过程最终得到一个稀疏化的模型很多连接为零。主要好处减少模型大小因为可以存储为稀疏矩阵格式只存储非零值。加速推理跳过零权重的计算减少计算量。有时还能起到正则化效果防止过拟合。挑战需要谨慎选择剪枝率和剪枝策略否则会严重损害模型性能。现代的结构化剪枝直接剪掉整个神经元或滤波器比非结构化剪枝剪掉单个权重更受硬件欢迎。简单来说剪枝就是“给模型做减法剔除冗余部分保留核心结构。”3. 模型蒸馏定义蒸馏全称知识蒸馏是指训练一个小型模型学生模型去模仿一个更大、更精确的模型教师模型的行为的过程。如何实现知识蒸馏知识蒸馏的标准训练设置包括一个预训练的教师模型在蒸馏过程中通常保持冻结、一个较小的学生模型架构、一个包含真实标签的数据集。与传统训练不同的是学生模型使用一个组合损失函数进行训练。除了标准任务损失以外还包含一个蒸馏损失两个损失函数通过加权和进行组合α 是一个超参数用于平衡模仿教师模型与匹配真实数据的重要性。比喻让大学者教师模型把他的知识精华和解题思路传授给他的学生学生模型。学生不像老师那样知识庞杂但他学会了老师最核心的思维模式和解题技巧因此能以更快的速度给出接近老师水平的答案。工作原理有一个训练好的、性能强大的教师模型。设计一个结构更小、更简单的学生模型。关键点训练学生模型时目标不仅是匹配真实的标签硬标签更重要的是匹配教师模型输出的概率分布软标签。硬标签图片是“猫”[1, 0, 0]软标签教师模型输出可能是“猫0.9 狗0.09 狐狸0.01”。这个软标签包含了丰富的“暗知识”比如模型认为狗和狐狸与猫有某些相似性。学生模型通过学习这些软标签能获得比只学硬标签更强大的泛化能力。主要好处获得一个既小又快但性能接近大模型的小模型。这是压缩技术的终极目标。学生模型有时甚至能超越教师模型的性能因为蒸馏过程是一种强大的正则化。挑战需要有一个预先训练好的强大教师模型并且蒸馏过程本身也需要训练时间和计算资源。简单来说蒸馏就是“师从大师提炼精华练就一身更精悍的本领。”总结与对比技术核心思想主要目标好比是量化降低数值精度减少内存占用加速计算将精算改为心算剪枝移除冗余参数减少模型复杂度实现稀疏化给知识库做减法忘掉无用知识蒸馏小模型模仿大模型获得一个性能接近大模型的小模型学生继承老师的知识和经验量化适合 “降精度提效”侧重硬件友好性剪枝适合 “删冗余精简”侧重结构优化蒸馏适合 “小模型学知识”侧重性能保留。实际部署中三者常联合使用以达到极致的压缩效果。例如先对一个大型教师模型进行蒸馏训练出一个性能良好的小型学生模型。然后对这个学生模型进行剪枝移除其中不重要的连接。最后对剪枝后的模型进行量化将其转换为低精度格式。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

芯片测试时定位不到问题？试试 A/B 排查法

芯片回来了，上板，测试失败——这大概是芯片工程师最难受的时刻之一。失败可以接受，但找不到失败原因才是真正的噩梦。一块硅片，看不见摸不着内部状态，能输出的信号有限，出了问题要从哪里下手？A/…...

2026/5/6 6:53:30 阅读更多 →

D3KeyHelper：暗黑3玩家的智能技能自动化解决方案

D3KeyHelper：暗黑3玩家的智能技能自动化解决方案【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面，可自定义配置的暗黑3鼠标宏工具。项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper D3KeyHelper是一款专为《暗黑破坏神3》设…...

2026/5/6 6:48:32 阅读更多 →

为AI Agent构建全链路可观测性：基于OpenTelemetry与Apache Doris的运维实践

1. 项目概述：为AI Agent装上“全链路透视镜”如果你正在大规模使用OpenClaw这类AI Agent调度平台，我猜你肯定遇到过这样的场景：某个关键的业务流程突然卡住了，你只知道最终结果不对，但完全不清楚是哪个Agent出的问题、…...

2026/5/6 6:38:54 阅读更多 →

Zotero重复文献终极处理方案：ZoteroDuplicatesMerger完整使用指南

Zotero重复文献终极处理方案：ZoteroDuplicatesMerger完整使用指南【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 如果你正在为Zot…...

2026/5/5 10:36:05 阅读更多 →