【后训练】SFT、RL、DPO、蒸馏…这些花活儿，到底动了模型哪根筋？

张

张建站

2026/6/9 1:21:16

10分钟阅读

今天就接着这个话头把后训练的花样一次性给你摊开。不过先别急着记名词——咱们换个角度从一个更根上的问题切进去。预训练花了几万亿 token、几千万美元把一个模型从一堆随机数练成了啥都会一点的庞然大物。然后呢然后我们拿区区几万条、甚至几千条数据做 SFT、做 RL、做 DPO……就这么点料凭什么还能改变这个吃了整个互联网的怪物它到底改了什么这就是今天想跟你掰扯清楚的事。先把结论用一个比喻砸下来整篇都用它后训练不重造地形。它只是在这片现成的地形上动土——挖个坑、夯一块地、改几个路标决定模型默认从哪儿出发、顺着哪条路往下滚。记住这一句本篇从头到尾都靠它撑着没有任何一种后训练能造出地形上本来不存在的山。能力都是预训练给的后训练只决定你走到哪座山。SFT 也好、RL 也好它们不发明新能力只在已有地形上重新分配概率。想通了这句下面 SFT、RL、DPO、蒸馏这一堆花样你会发现它们说到底是同一件事的不同手法在同一片地形上用不同的铲子动不同的土。━━━━━━━━━━━━━━━━━━━━◆ SFT 动了什么━━━━━━━━━━━━━━━━━━━━先说 SFT监督微调因为它最容易被误解。很多人以为 SFT 是一种全新的训练方法。不是。这是第一个反直觉点SFT 和预训练用的是同一个方法、同一个损失函数。预训练干的事说穿了就是给前面一串 token预测下一个 token预测错了就罚——逐个 token 算交叉熵损失反向传播更新权重。SFT 干的一模一样还是给前文、预测下一个 token、算交叉熵。对每个位置 t loss -log P(正确的下一个token | 前面的token)预训练和 SFT这个公式一字不差。那它俩差在哪只差在喂的数据。预训练喂的是整个互联网——杂、乱、什么方向都有。而 SFT 喂的是问题标准答案这种高度同质、方向高度一致的数据所有样本都在喊同一句话——“碰到这类提问就该这么答”。而且这种齐不光是内容上的——更狠的是结构上的。几乎每一条 SFT 样本都是用户问一句、助手答一句这同一个模板。内容好歹还有点变化这道题那道题但要用助手的口吻来答、答完就停这个格式每一条数据都在重复同一遍。数据方向齐意味着什么意味着每一条样本算出来的梯度几乎都朝同一个方向使劲。预训练时梯度东一榔头西一棒子互相抵消地形是被均匀地塑造的SFT 时所有梯度拧成一股绳往一个点上猛怼——而且这股绳劲儿使得最足的地方往往就是一问一答这个壳。翻译成地形语言SFT 相当于在地形的某一处拿夯土机反复夯同一个坑。把模型的默认出发点从原来那片开阔山地硬生生压进一个又窄又深的标准答案坑。模型从此默认蹲在这个坑里一开口就是 SFT 教它的那个腔调、那个格式。代价呢坑挖得越深坑外面那些原本能走的泛化路就被压得越低。模型变顺了、变规整了但举一反三的侧路也被一起夯平了。这个代价正是上一期 212 整篇在讲的事待会儿收口再接。所以 SFT 的本质一句话它不是教模型新东西是把模型往一个方向猛夯。补一个工程细节能侧面印证这个劲大SFT 的学习率通常比预训练小一个数量级典型值 1e-5 vs 1e-4。为什么明明数据少反而要把步子调小正因为大家心里清楚 SFT 这股方向齐的劲太猛、太容易夯过头——故意把学习率压住怕它一脚踩进坑底拔不出来。━━━━━━━━━━━━━━━━━━━━◆ RL 动了什么━━━━━━━━━━━━━━━━━━━━SFT 夯的那个坑常常太窄太深。模型蹲进去确实规整但也僵了——只会标准答案那一套。这时候 RL强化学习登场。它干的活用地形语言说是拿奖励信号当绳子把模型从 SFT 夯的窄坑里往外拽拽去一条奖励更高的谷里。RL 和 SFT 最根本的区别212 期那句话说得最干净SFT 是抄答案RL 是自己做题对答案。RL 不给标准答案它让模型自己采样、自己做一遍做完按分数奖励来调——做得好的路往上抬做得差的路往下压。注意 RL 这套机制的两个硬约束它是试错的——模型得自己先走一遍才知道哪条路有奖励。很多时候它是在线、稀疏的——尤其在数学、代码这类 RLVR 任务里奖励常常只在最后给一下答对没答对中间一片漆黑。这两条约束直接决定了 RL 的天花板它只能在地形里换条谷走造不出一条原本不存在的新谷。因为它能尝试的路全是模型在当前地形上采样得出来的——地形里没有的路它根本采样不到自然也强化不了。要记住的是不管奖励来自机器还是来自人、不管训得多省它们改的都只是怎么拽这根绳子怎么省力没动往哪拽这个框架——能拽到的路照样还是地形里本来就有的那些。今天我们盯的是框架本身。━━━━━━━━━━━━━━━━━━━━◆ 主菜那些换个手法动土的方法━━━━━━━━━━━━━━━━━━━━SFT 是夯坑RL 是拽出坑。这俩是后训练的两块基石。但这几年冒出来一大堆新花样本质都是在动土这件事上换了个手法。我们一个个用同一套地形语言过一遍你会发现它们其实没那么玄。第一类DPO 系——动的是信号通路。RL 那套又是采样又是打分在线跑一遍很贵。有没有办法不挖坑、也不试错直接改路标有叫 DPODirect Preference Optimization直接偏好优化。它的输入是偏好对同一个问题给你两条回答 A 和 B告诉你A 比 B 好。DPO 不让模型自己采样、不在线打分它直接拿这两条路做对比把好路标抬高、把坏路标压低——一步到位纯离线。打个比方RL 是让你自己在地形里反复跑、跑完看分数DPO 是直接给你两条路的对比照告诉你走左边别走右边你照着改路标就行不用真去跑。那这一对一对的偏好对从哪来你其实天天在贡献。各家 AI 网页时不时弹出来的那个这两个回答你觉得哪个更好——你随手一点一条偏好对就到手了。连标注费都省了用户自己就把数据标好、白送上门。这正是 DPO 这类方法在工业界这么受欢迎的一个现实原因——喂它的数据海量、免费、源源不断。DPO 这篇论文arXiv:2305.18290Stanford的标题取得挺好——《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》直译过来就是你的语言模型其实偷偷就是个奖励模型。它从数学上证明你压根不用单独训一个奖励模型再去跑 RL那一整套在线流程可以等价地折叠成一个直接在偏好对上算的损失函数。省掉了 RL 的采样和打分效果还不差。这是论文的核心论证改路标是我们的比喻别当论文原话。还有个更狠的变体ORPO《ORPO: Monolithic Preference Optimization without Reference Model》arXiv:2403.07691KAIST。它把先 SFT、再做偏好对齐这两个阶段直接合并成一步——夯坑和改路标同时干而且连 DPO 还需要的那个参考模型都不要了。一句话能省的它全省了。第二类阶段重构——动的是流程。经典流程是死的先 SFT 夯坑再 RL 拽出坑两段泾渭分明。但凭什么非得这么排有人开始改这个流程边夯边拽、反复修。BRIDGE《Beyond Two-Stage Training: Cooperative SFT and RL for LLM Reasoning》arXiv:2509.06948——让 SFT 和 RL 交替进行、做成双层优化不再是夯完一次性交给 RL而是两把铲子来回倒腾。这篇 212 期也引过它正是观察到先降后升那条曲线的论文之一。迭代式自我提升代表作 Self-Rewarding《Self-Rewarding Language Models》arXiv:2401.10020Meta——让模型自己当裁判给自己的回答打分攒出偏好对再拿去做 DPO然后循环新模型再当裁判、再造数据、再训。模型自己拽自己往上爬。拒绝采样rejection sampling最早大规模用在 Llama 2《Llama 2: Open Foundation and Fine-Tuned Chat Models》arXiv:2307.09288——对同一道题让模型生成 N 个答案只挑最好的那个当作新的 SFT 数据再拿去训自己。相当于模型先在地形里撒开了乱跑一通然后只留下跑得最好的那条路当新的标准答案再夯一遍。Llama 3《The Llama 3 Herd of Models》arXiv:2407.21783把这套放大用迭代式的 SFT 拒绝采样 DPO循环往复。注意这里有个常被搞混的点——Llama 3 用的是 DPO去掉了 PPO而上一代 Llama 2 才用 PPO。两代别混成一句。第三类自对齐 / 蒸馏——动的是谁拿铲子。前面都在讲用什么手法动土这一类换了个问题谁来画这些路标经典答案是人——人类标注员写标准答案、标偏好对。但人贵、人慢、人还主观。于是Constitutional AI《Constitutional AI: Harmlessness from AI Feedback》arXiv:2212.08073Anthropic——给模型一套宪法原则诚实、无害之类关键是这套宪法不是另训一个模型就是一沓写在提示词里的自然语言规则。然后让模型自己照着这些原则批评、改写自己的回答攒出对齐数据连哪个回答更好这种打分也让模型照着宪法自己判用 AI 的反馈替掉大量人工偏好标注。整个过程只有宪法是人写的后面的批评、改写、打分都交给模型自己跑提示词就是那把铲子拿铲子的从标注员换成了模型自己。工程上为了跑得快通常会把模型的判断先蒸馏成一个轻量奖励模型再去训——但那只是提速技巧不影响AI 自己照宪法判这个本质。蒸馏distillation——更直接照着另一片已经修好的成熟地形描一遍。怎么描拿一个强模型老师的输出当成标准答案去对一个弱模型学生做 SFT。这里得分清两种描法差别在老师肯给你多少信息一种是带概率的白盒蒸馏。老师不光告诉你下一个词是猫还把它心里那张概率表整个端出来——“猫 70%、狗 20%、鸟 5%”。学生照着这张表学连狗也有点像、鸟基本不可能这种弦外之音都学到了信息量足。但前提是你得拿得到老师的完整输出分布最常见的情况就是老师权重在你手上。另一种是只有文本的黑盒蒸馏。你蒸的是 GPT、Claude 这种闭源 SOTA人家 API 只吐给你最终那句话概率表是不给的。你只能拿问题 → 老师吐出来的回答当标准答案做一遍普通 SFT。说白了——人家只让你抄答案不让你看它脑子里的那张草稿。现在大家嘴里说的蒸馏某某大模型基本都是这种退而求其次的黑盒抄法。所以我们平时说的蒸馏大模型黑盒那种的本质说到底就是 SFT只不过那些标准答案不是人写的是从另一个模型抄来的。这条路的开山案例是 2023 年的 Stanford Alpaca。它本身不算什么技术突破但意义重大斯坦福用大概 500 美元、拿 OpenAI 的 text-davinci-003 生成 5.2 万条指令数据去 SFT 一个 LLaMA-7B效果居然逼近原版 davinci。一句话——它第一次让所有人意识到抄大模型的作业几百块钱就能抄出个能用的对话模型。后面开源社区那一整波蒸馏潮源头就在这儿。关于 Alpaca 多嘴一句免得你去搜半天它没有正式的 arXiv 论文是斯坦福官方博客 https://crfm.stanford.edu/2023/03/13/alpaca.html 加 GitHub 仓库发布的。而这条路走到今天的高峰是 DeepSeek-R1——当年 Alpaca 抄的是聊天能力现在 R1 抄的是顶级推理能力。它用自己生成的约 80 万条推理样本把推理能力蒸馏进 Qwen2.5 系列1.5B / 7B / 14B / 32B和 Llama 系列Llama-3.1-8B、Llama-3.3-70B一口气整出从 1.5B 到 70B 一整排小模型《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》arXiv:2501.12948型号清单见 HuggingFace 的 DeepSeek-R1-Distill 模型卡。有意思的是——R1 是开放权重模型理论上完全可以走信息量更大的白盒蒸馏把概率表也喂给学生但 DeepSeek 偏没这么干用的还是那套生成文本、再 SFT的黑盒抄法。论文里写得明明白白只做 SFT不做 logits 匹配连 RL 都没加。为啥因为白盒有一堆麻烦事——师生词表得对齐R1、Qwen、Llama 三家 tokenizer 各不相同、还得在线挂着老师跑工程上费劲。而对传递一长串推理过程这种任务把思维链当文本直接喂过去最值钱的东西其实就已经传到了再去抠那点概率分布边际收益不大。说白了连开放权重模型往别的底座上蒸推理能力都嫌白盒麻烦能用黑盒文本糊过去就糊过去了。不是白盒不行是它那点理论优势在够用就好面前常常不值那份工程麻烦。开源模型尚且如此轮到蒸 GPT、Claude 这种闭源 SOTA就更没得选了——人家压根不给你概率表你只能对着它吐出来的文本照猫画虎。而一旦只能照着文本描另一个麻烦就来了照着别人地形描的时候你以为只描走了人家的能力连人家地形里的沟坎、毛病也一并描走了。这就是为什么蒸馏出来的模型往往会带上原模型的文风、口头禅连缺陷都一起继承。而且不止文风毛病——连那个模型的价值观、说话的立场、什么话该说什么话不该说也会一起炖进去。这里得说清楚价值观可不是预训练那片地形自带的它恰恰是老师模型自己被后训练SFT、对齐那一套一锤一锤夯出来的。蒸馏的时候老师吐出来的每一句话早就带着它后训练动过的痕迹——你照着抄等于把人家夯过的坑、改过的路标也一并描了下来。所以你以为自己只是借了人家的解题能力结果连人家看世界的角度、回避问题的习惯都悄悄端到了自己碗里。说到底你描的不是一片干净地形是一片已经被人动过土的地形——好处和那一整套调教结果分不开。━━━━━━━━━━━━━━━━━━━━◆ 收口一张动土全景图━━━━━━━━━━━━━━━━━━━━绕了一大圈现在把所有后训练手法归到同一句话上——它们全都是在同一片预训练地形上用不同的铲子动不同的土SFT 夯坑。所有梯度往一个方向猛怼把模型默认位置压进一个标准答案窄坑。RL 把模型从坑里拽出来。靠奖励信号试错换去一条奖励更高的谷。DPO 系比两条路、改路标。不挖坑不试错离线对比偏好对抬好路压坏路。阶段重构边夯边拽、反复修。打破先 SFT 后 RL的死流程。自对齐自己画路标。把拿铲子的人换成模型自己。蒸馏照着别人的地形描一遍。本质还是 SFT只是答案来自另一个模型。你品一下这六样东西的共同点变的永远是模型默认走哪条路不变的永远是地形本身。这就是为什么世界观钩子值得砸第二遍没人能凭空造一座山。能力——那些山谷沟壑——全是预训练几千万美元砸出来的。后训练这一堆花样再怎么折腾也只是在这片现成地形上挖坑、夯地、改路标重新分配概率决定你走到哪座山脚下。它们谁也变不出地形上本来没有的东西。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Windows 10/11 本地搭建 SonarQube 7.8 + MySQL 8.0 完整避坑指南（附网盘资源）

Windows 10/11 本地搭建 SonarQube 7.8 MySQL 8.0 完整避坑指南在个人开发环境中搭建代码质量分析平台，是许多开发者提升项目健壮性的必经之路。SonarQube 作为行业领先的静态代码分析工具，其 7.8 版本与 MySQL 8.0 的组合在 Windows 平台上的部署却暗藏…...

2026/6/9 1:19:30 阅读更多 →

Docker核心命令

一、 Docker命令体系概述在云原生与微服务架构的演进中，Docker作为容器化技术的基石，其命令行接口（CLI）是开发者与运维人员进行资源调度、环境隔离及应用部署的核心交互媒介。深入掌握Docker命令体系，不仅是理解容器底…...

2026/6/9 1:15:02 阅读更多 →

VisionPro 二次开发完整原理深度详解

本文脱离实操代码，从架构体系、底层技术、文件本质、调用链路、运行机制、对象模型、通信逻辑等维度，全方位、系统化讲解 VisionPro 二次开发核心原理，同时区分原生软件、底层引擎、.NET 接口、上层应用四层架构，覆盖底层逻辑、数…...

2026/6/9 1:14:58 阅读更多 →

JPEXS Free Flash Decompiler：SWF逆向工程架构解析与技术实践

JPEXS Free Flash Decompiler：SWF逆向工程架构解析与技术实践【免费下载链接】jpexs-decompiler JPEXS Free Flash Decompiler 项目地址: https://gitcode.com/gh_mirrors/jp/jpexs-decompiler JPEXS Free Flash Decompiler是一款基于Java开发的开源SWF文件…...

2026/6/8 21:10:52 阅读更多 →