大模型训练秘籍:ChatGPT、Claude、Gemini的“猜字游戏”是如何炼成的?
本文深入剖析了大模型训练的核心——预训练过程。从互联网数据清洗到Tokenizer文本分割再到Transformer架构和Next Token Prediction的训练目标详细解读了模型如何通过“猜下一个字”的游戏学习并理解世界。同时文章还探讨了Scaling Laws缩放定律和大规模GPU集群的工程挑战揭示了大模型训练的成本与性能关系。预训练为模型奠定知识基础但后续的后训练步骤才是将其转化为实用AI助手的关键。ChatGPT、Claude、Gemini、DeepSeek——这些名字背后的大模型本质上只学了一件事给定前面的文字猜下一个字。就这么简单就这么简单。但为了让这个猜字游戏达到接近人类的水平需要从互联网上淘出 15 万亿个词、烧掉几千万甚至上亿美元、让数万张 GPU 连续运转几个月。这个过程叫做预训练Pre-training是一切大模型的起点。今天这篇文章把它从头到尾拆开。**系列说明**这是「大模型训练全流程」连载的上篇。上篇讲预训练——模型怎么出生下篇讲对齐——怎么从能说话变成说人话。第一步数据——从互联网垃圾堆里淘金训练大模型的第一步不是写算法而是找数据。而且需要的量级远超想象。目前几乎所有大模型的预训练数据都来自同一个源头Common Crawl。这是一个非营利组织从 2007 年开始持续爬取整个公开互联网积累了几十 PB 的原始网页数据。但原始数据里绝大部分是垃圾——广告、导航栏、重复页面、SEO 垃圾文章、色情内容、恶意代码。直接拿来训练模型只会学到一堆废话。所以核心工作其实是数据清洗——从垃圾堆里淘金。一条典型的清洗流水线长这样① 文本提取从 HTML 里剥离导航、广告、代码只保留正文② 语言识别识别是英文、中文还是其他语言按需过滤③ 去重互联网上大量页面是复制粘贴的重复数据会让模型死记硬背④ 质量过滤用规则或小模型判断文本质量丢掉低质内容⑤ 毒性和隐私过滤移除有害内容和个人隐私信息这套流水线能有多狠Hugging Face 的 FineWeb-Edu 项目做了一个激进实验从 15 万亿 token 的 FineWeb 数据集里只保留前 10% 的高质量教育内容得到 1.3 万亿 token。结果用这个缩水数据集训练的模型在 MMLU 和 ARC 等知识推理测试上反而大幅提升。**关键结论**数据质量 数据数量。丢掉 90% 的数据模型反而更聪明。除了网页文本预训练数据通常还包括书籍、学术论文、代码GitHub、维基百科、对话数据等。不同数据的比例会直接影响模型的能力侧重——代码占比高的模型编程更强书籍占比高的模型文学更好。这个配比是各家公司的核心机密之一。而且有一个正在逼近的危机有研究预测公开互联网上可用的文本数据可能在2026 到 2028 年之间耗尽。这也是为什么合成数据用 AI 生成训练数据正在成为热门方向——我们会在下篇详细讲。第二步Tokenizer——教模型认字计算机不认识文字只认识数字。Tokenizer 的工作就是把文本切成一个个小片段token每个片段对应一个数字编号。目前主流方案是 **BPEByte Pair Encoding**算法从单个字符开始不断把最常一起出现的字符对合并成一个 token。比如 “th” 和 “e” 经常连着出现就合并成 “the” 这个 token。训练完后常见词汇会变成一个 token生僻词则被拆成多个小片段。Tokenizer 看起来是个工具性细节但它直接影响三件大事•使用成本API 按 token 计费同样的中文内容在不同模型上可能差 2-3 倍 token 数•上下文长度128K token 的上下文窗口中文能塞进去的字数比英文少很多•模型能力如果 Tokenizer 把一个常用词拆得太碎模型理解这个词就更困难各家模型的词汇表大小差异不小GPT-4 用 100K 词汇表Llama 3 扩展到 128K而千问Qwen为了优化中文效率做到了 152K。词汇表越大覆盖的语言和词汇越广但模型参数也会相应增加。第三步架构——Transformer 极简版2017 年 Google 发表了「Attention Is All You Need」提出了 Transformer 架构。此后几乎所有大模型——GPT、Claude、Gemini、Llama、DeepSeek——都基于这个架构。不讲数学只用一个类比说清楚核心机制。想象一个圆桌会议桌上每个人代表一句话里的一个词。**注意力机制Attention**做的事情是让每个词都环顾四周判断其他词跟自己的关系有多强然后根据关系强度来更新对自己的理解。比如苹果发布了新手机这句话里“苹果这个词要看到发布和手机”才能确定这里指的是公司而不是水果。一个 Transformer 模型就是很多层这样的圆桌会议堆叠起来。每一层都在提炼更抽象的理解——底层可能在处理语法中层在理解语义高层在做逻辑推断。具体有多少层小模型可能 32 层中等模型 80 层顶级模型超过 126 层。模型的参数量主要取决于层数和每层的宽度隐藏维度。粗略感受一下规模•8B 参数如 Llama 3 8B推理需要约 20 GB 显存一张消费级显卡勉强能跑4-bit 量化后只需 5-6 GB普通笔记本也行•70B 参数如 Llama 3 70B需要约 160 GB 显存至少两张专业 GPU•405B 参数如 Llama 3.1 405B需要超过 1 TB 显存得上整个 GPU 集群近年来有两个重要的架构演进值得关注•GQA分组查询注意力Llama 2 开始采用在几乎不损失性能的前提下大幅降低推理时的显存占用•MoE混合专家DeepSeek 的秘密武器。模型有很多专家子网络每次推理只激活其中一小部分。比如 DeepSeek-V3 总参数 671B但每次只激活 37B——用小模型的推理成本做到大模型的性能第四步训练目标——猜下一个字架构准备好了数据准备好了那模型到底在学什么答案就是开头说的Next Token Prediction下一个 token 预测。给模型一段文本遮住最后一个词让它猜。猜对了奖励猜错了惩罚。然后用整个互联网的文本重复这个过程几万亿次。举个例子输入今天的天气真 目标好 输入中国的首都是 目标北京 输入def fibonacci(n): 目标 if看起来很傻但 OpenAI 前首席科学家 Ilya Sutskever 给了一个深刻的解释“如果你能真正完美地预测下一个 token那你实际上是在做的是压缩——你必须理解文本背后的事实、逻辑、因果关系和世界模型。预测下一个 token 等价于理解世界。”想想看要准确预测中国的首都是___后面接什么模型需要知道地理知识要预测如果 x 0 则___后面接什么需要理解逻辑要预测一段故事的下一句需要理解人物关系和情节发展。训练过程中模型的预测能力用 **Loss损失值**来衡量——Loss 越低预测越准。一个典型的训练过程是 Loss 从 10 逐渐降到 2 以下这意味着模型对下一个 token 的预测从近乎随机变成了高度准确。第五步Scaling Laws——花多少钱买多少智能大模型领域最重要的发现之一是训练效果可以被精确预测。2020 年OpenAI 的研究团队Kaplan 等人发现了Scaling Laws缩放定律模型参数量、训练数据量和计算量三者之间存在幂律关系——增加其中任何一个模型性能都会以可预测的速度提升。2022 年DeepMind 的Chinchilla 论文进一步给出了最优配比在固定计算预算下参数量和训练数据量应该大致按1:20的比例增长。也就是说一个 10B 参数的模型应该训练 200B 个 token 才算吃饱。按照这个标准之前很多模型都是没吃饱的——GPT-3 有 1750 亿参数但只训练了 3000 亿 token远低于最优的 3.5 万亿。但 Meta 故意走了一条不同的路。Llama 3 的 8B 模型用了15 万亿 token来训练——按 Chinchilla 的标准这是最优量的十倍以上。为什么要这么做因为 Chinchilla 只优化了训练成本没考虑推理成本。训练只做一次推理要做无数次。一个小模型多训练一些训练时多花点钱但部署后每次推理都更便宜——在大规模应用场景下这笔账算得过来。**Scaling Laws 的实际意义**在花几千万美元开始训练之前团队可以先用几万美元训练一系列小模型根据 Scaling Laws 预测最终大模型的性能。如果预测结果达不到目标就不用浪费钱了。这是大模型训练从炼丹走向工程的关键一步。理解了数据、架构和缩放定律之后接下来的问题就变成了这些东西怎么在工程上跑起来第六步工程——让几万张 GPU 一起干活预训练大模型是当今世界上最昂贵的计算任务之一。单张 GPU 训练 GPT-3 需要 32 年所以必须让成千上万张 GPU 协同工作。分布式训练的核心思路有三种•数据并行每张 GPU 拿到不同的训练数据用同一个模型副本各自算梯度然后同步更新。就像多个学生做不同的练习题然后对答案•张量并行把模型的某一层切成几块分到不同 GPU 上。就像一张大表格拆成几列每人算几列•流水线并行把模型的不同层分到不同 GPU 上。GPU A 算完第 1-10 层把结果传给 GPU B 算第 11-20 层像工厂流水线实际训练中这三种方式通常组合使用。下面这张表展示了近年来主要模型的训练规模模型GPU训练时长估算成本GPT-3 (2020)~1,000 A100~1 个月~$460 万GPT-4 (2023)~25,000 A100~90 天~$1 亿Llama 3.1 405B (2024)16,000 H10054 天~$6,000 万DeepSeek-V3 (2024)2,048 H800~2 个月$557 万GPT-5 (2025)~200,000 GPU未公开数亿美元DeepSeek-V3 的数据格外亮眼只用了 2,048 张 H800性能不如 H100 的阉割版训练成本仅 $557 万却做出了跟 GPT-4 相当的性能。这背后是 MoE 架构和工程优化的胜利。大规模 GPU 集群还面临一个残酷的现实故障率。据报道国内千卡集群的平均故障率在 10% 到 20%大约每 3 小时就要断一次训练。每次中断都需要从最近的 Checkpoint检查点恢复——这就是为什么训练系统会定期把模型状态保存到磁盘上就像游戏存档。电力消耗同样惊人。训练一个顶级大模型消耗的电量跟一个小城镇一年的用电量相当。这也是为什么越来越多的 AI 公司在考虑核电——不是开玩笑微软和 Google 都在谈。全景图预训练到底做了什么把上面所有步骤串起来❶从互联网爬取几十 PB 原始数据❷清洗过滤留下几万亿 token 的高质量文本❸用 Tokenizer 把文本转成数字序列❹喂进 Transformer 架构的神经网络❺用猜下一个字的目标训练几万亿次❻在数万张 GPU 上跑几个月❼得到一个基座模型Base Model花了这么多钱和时间基座模型能做什么老实说——它的表现可能让你失望。基座模型本质上就是一个超级强大的文本接龙机器。你输入一段文字它会接着写下去——但它不会对话。你问它法国的首都是哪“它不会回答巴黎”而是可能接着写法国的首都是哪个城市这是一道常见的地理题……它也不听指令。让它翻译一段话它可能翻译到一半开始自己聊别的。它还没有安全边界。训练数据里有什么它就可能输出什么——包括有害内容。**打个比方**基座模型就像一个读遍了所有书的天才——但没人教过它礼貌没人告诉它什么该说什么不该说甚至没人教过它被问问题的时候应该回答问题。要把这个天才变成一个好用、安全、听话的助手需要接下来的步骤——后训练Post-training也就是 SFT、RLHF、DPO 这些你可能听过但不太清楚的概念。下篇预告预训练给了模型知识但知识不等于能力。下篇「从能说话到说人话」会接着讲后训练的完整流程•SFT怎么用 1,000 条数据教会模型回答问题•RLHF怎么用人类偏好教模型判断好坏•DPO为什么越来越多公司在抛弃 RLHF•推理训练DeepSeek R1 怎么让模型学会思考•LoRA普通人怎么用 $50 微调自己的模型预训练花了几千万美元但后训练可能只花几千美元——而正是这几千美元决定了你用的是一个接龙机器还是一个靠谱助手。AI行业迎来前所未有的爆发式增长从DeepSeek百万年薪招聘AI研究员到百度、阿里、腾讯等大厂疯狂布局AI Agent再到国家政策大力扶持数字经济和AI人才培养所有信号都在告诉我们AI的黄金十年真的来了在行业火爆之下AI人才争夺战也日趋白热化其就业前景一片蓝海我给大家准备了一份全套的《AI大模型零基础入门进阶学习资源包》包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。有需要的小伙伴可以V扫描下方二维码免费领取人才缺口巨大人力资源社会保障部有关报告显示据测算当前****我国人工智能人才缺口超过500万****供求比例达1∶10。脉脉最新数据也显示AI新发岗位量较去年初暴增29倍超1000家AI企业释放7.2万岗位……单拿今年的秋招来说各互联网大厂释放出来的招聘信息中我们就能感受到AI浪潮比如百度90%的技术岗都与AI相关就业薪资超高在旺盛的市场需求下AI岗位不仅招聘量大薪资待遇更是“一骑绝尘”。企业为抢AI核心人才薪资给的非常慷慨过去一年懂AI的人才普遍涨薪40%脉脉高聘发布的《2025年度人才迁徙报告》显示在2025年1月-10月的高薪岗位Top20排行中AI相关岗位占了绝大多数并且平均薪资月薪都超过6w在去年的秋招中小红书给算法相关岗位的薪资为50k起字节开出228万元的超高年薪据《2025年秋季校园招聘白皮书》AI算法类平均年薪达36.9万遥遥领先其他行业总结来说当前人工智能岗位需求多薪资高前景好。在职场里选对赛道就能赢在起跑线。抓住AI风口轻松实现高薪就业但现实却是仍有很多同学不知道如何抓住AI机遇会遇到很多就业难题比如❌ 技术过时只会CRUD的开发者在AI浪潮中沦为“职场裸奔者”❌ 薪资停滞初级岗位内卷到白菜价传统开发3年经验薪资涨幅不足15%❌ 转型无门想学AI却找不到系统路径83%自学党中途放弃。他们的就业难题解决问题的关键在于不仅要选对赛道更要跟对老师我给大家准备了一份全套的《AI大模型零基础入门进阶学习资源包》包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。有需要的小伙伴可以V扫描下方二维码免费领取