从零构建大语言模型：手把手实现GPT架构与训练全流程

张

张建站

2026/5/12 4:37:59

10分钟阅读

1. 从零构建大语言模型不只是代码更是理解如果你和我一样对ChatGPT、Llama这些大语言模型LLM感到既兴奋又困惑想知道这些动辄千亿参数的“黑箱”内部究竟是如何运作的那么“从零开始构建”这条路可能是解开谜团最直接、也最深刻的方式。市面上有很多教程教你调用API或者微调一个现成模型但这就像只学会了开车却对引擎盖下的机械原理一无所知。Sebastian Raschka的《Build a Large Language Model (From Scratch)》这本书及其配套的GitHub仓库rasbt/LLMs-from-scratch提供了一条截然不同的路径它不满足于让你成为“用户”而是致力于将你培养成“创造者”。这个项目不是一个简单的代码合集它是一本完整的、手把手的实践指南。它的核心价值在于“透明化”和“可触及”。你将从最基础的文本数据处理开始亲手编写注意力机制Attention的每一行代码逐步组装出一个完整的GPT架构模型然后经历预训练Pretraining和指令微调Finetuning的全过程。最打动我的一点是它刻意将模型规模控制在“小但功能完整”的尺度确保你在一台普通的笔记本电脑上就能跑通所有流程。这意味着你不再需要仰望那些需要昂贵算力集群的庞然大物而是可以在自己的机器上亲眼见证一个语言模型从“婴儿学语”到“对答如流”的成长历程。这不仅仅是学习更像是一次深度解剖和亲手复现的工程实验。2. 项目核心思路与学习路径设计2.1 为什么选择“从零开始”很多人在接触LLM时会直接从Hugging Face的transformers库开始。这当然高效但容易让人陷入“调包侠”的困境对底层机制的理解停留在表面。LLMs-from-scratch项目反其道而行之它的首要目标是建立深刻的理解而非追求最快的产出。它的设计哲学很明确通过亲手建造来理解建筑原理。当你自己用PyTorch实现一个多头注意力层时你会彻底明白Q、K、V矩阵是如何计算并交互的掩码Mask是如何防止模型“偷看”未来信息的以及缩放点积注意力Scaled Dot-Product Attention中那个除以sqrt(d_k)究竟是为了解决什么问题防止梯度消失/爆炸。这种肌肉记忆般的理解是任何高级API封装都无法给予的。项目的第二个巧妙之处在于其渐进式复杂度。它并非一开始就扔给你一个完整的GPT-2架构。而是从第二章的文本分词Tokenization和第三章的注意力机制基础单元开始搭建。这就像先教你认识砖块Token和水泥Attention再教你砌墙Transformer Block最后教你盖房子GPT Model。每一步都稳扎稳打确保你在进入下一个更复杂的环节前已经充分消化了前置知识。2.2 内容架构与章节逻辑解析项目的结构完全对应书籍章节形成了一个清晰的学习闭环基础构建Ch 2-4这是模型的“硬件”部分。Ch 2: 文本数据处理从零理解字节对编码BPE分词器。你会亲手编写代码将原始文本转换成模型能理解的数字序列Token IDs。这里的一个关键认知是分词器本身就是一个重要的模型组件它的好坏直接影响模型对语言的理解粒度。Ch 3: 注意力机制这是Transformer的灵魂。项目会引导你实现缩放点积注意力然后将其扩展为多头注意力Multi-Head Attention。你会理解为什么多头机制能让模型同时关注来自不同表示子空间的信息。Ch 4: GPT模型实现将前两步的成果组装起来。你会实现Transformer解码器块包含层归一化、前馈网络等并堆叠成完整的GPT模型。此时一个可以执行推理前向传播的模型骨架就完成了。训练与进化Ch 5-7这是模型的“软件”或“学习”部分。Ch 5: 无监督预训练让模型“博览群书”。你将在一个无标签的文本语料库如维基百科、开源书籍上训练模型目标是最简单的“下一个词预测”。这是模型获得通用语言知识和世界知识的关键阶段。项目会详细讲解如何准备数据、设计训练循环、以及使用验证集监控损失Loss。Ch 6: 文本分类微调让模型“学以致用”。在预训练好的模型基础上添加一个分类头并在一个有标签的数据集如电影评论情感分类上进行微调。这个过程展示了如何将通用的语言模型适配到具体的下游任务你会看到模型如何快速适应新任务即所谓的“迁移学习”威力。Ch 7: 指令微调让模型“听懂人话”。这是通向ChatGPT式对话能力的关键一步。你将使用指令-响应对数据集例如“写一首关于春天的诗” - “春风拂面...”来微调模型使其学会遵循人类指令并生成符合格式、有帮助的回复。这部分还会涉及一些评估方法来判断模型回答的质量。扩展与深化附录及Bonus这是项目的“弹药库”为学有余力者提供无限深度。附录APyTorch入门对新手极其友好。附录D/E训练循环的“调优技巧”如学习率调度器和高效微调技术如LoRA这些都是工业界实战中的必备技能。海量Bonus材料这是项目的宝藏。例如实现KV缓存KV Cache来加速推理、探索不同的注意力变体如分组查询注意力GQA、将GPT架构转换为Llama架构、甚至尝试混合专家模型MoE。这些内容让你不局限于书本能直接触摸到LLM领域的前沿实践。注意对于初学者我强烈建议严格按照Ch2到Ch7的顺序进行不要跳跃。因为后续章节的代码严重依赖于前面章节实现的模块。试图直接运行Ch5的预训练脚本而跳过Ch2-4的基础建设必然会失败。3. 环境准备与工具链实战3.1 硬件与软件需求真的只需要笔记本吗项目声称可以在常规笔记本电脑上运行这基本属实但需要一些明智的配置。我的实战经验是关键在于管理好模型规模和数据集大小。CPU vs GPU虽然代码支持纯CPU运行但训练速度会慢到令人难以忍受。一个具备NVIDIA GPU显存≥4GB的电脑是获得流畅体验的底线。项目代码会自动检测CUDA环境使用torch.cuda.is_available()来将模型和数据放到GPU上。内存与显存书中的“小模型”参数量大概在千万级别例如12层Transformer隐藏维度768。在批量大小Batch Size设置为8或16的情况下训练时GPU显存占用通常在2-4GB之间。如果你的显存只有2GB可能需要将批量大小调至4甚至使用梯度累积Gradient Accumulation来模拟更大的批量。系统内存RAM建议不少于8GB用于加载和处理数据集。Python与包管理项目强烈推荐使用uv作为包管理器和安装工具它比传统的pip更快、更轻量。我的做法是使用uv创建独立的虚拟环境这能完美隔离依赖避免与系统中其他项目的Python包发生冲突。# 使用uv创建并激活虚拟环境以项目目录为例 cd LLMs-from-scratch uv venv source .venv/bin/activate # Linux/macOS # 或 .venv\Scripts\activate # Windows # 使用uv同步安装所有依赖项目根目录通常有pyproject.toml或requirements.txt uv sync3.2 核心依赖库解析项目完全基于PyTorch生态避免了transformers等高级库以确保“从零”的纯粹性。主要依赖包括torch核心深度学习框架。务必安装与你的CUDA版本匹配的PyTorch可以从官网获取安装命令。tiktokenOpenAI开源的快速BPE分词器实现。书中从零实现BPE是为了教学但在实际训练中使用tiktoken如GPT-2/GPT-3/4使用的cl100k_base编码更高效、更稳定。项目在后续章节会引入它。datasetsHugging Face的datasets库用于方便地下载和加载各类公开数据集如WikiText-2, IMDb等。它处理了缓存、分片、流式加载等繁琐工作。tqdm用于显示进度条在长时间的训练和数据处理中它能给你宝贵的心理安慰。matplotlib用于绘制训练损失曲线、准确率曲线等可视化是调试和理解模型行为不可或缺的一环。安装完这些库后一个简单的测试脚本可以验证环境是否就绪import torch import tiktoken from datasets import load_dataset print(fPyTorch版本: {torch.__version__}) print(fCUDA是否可用: {torch.cuda.is_available()}) print(f当前设备: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else CPU}) # 测试tiktoken enc tiktoken.get_encoding(gpt2) tokens enc.encode(Hello, world!) print(f测试分词: {tokens} - {enc.decode(tokens)}) # 测试datasets不实际下载只检查 print(Datasets库导入成功。)4. 从零到一实现核心组件详解4.1 文本分词从字符串到模型“单词表”分词是LLM理解世界的第一步。想象一下教一个婴儿认字我们不会直接给他看一整本书而是先指认单个的字或词。分词器做的就是这件事将连续的文本切分成模型能处理的离散“符号”Token。书中从零实现了字节对编码BPE。其核心算法是一个迭代的合并过程初始词汇表是所有单个字节256个。在训练语料中统计所有相邻符号对pair的频率。将出现频率最高的符号对合并成一个新的符号加入词汇表。重复步骤2-3直到词汇表达到预定大小。这个过程能有效地在字符级和单词级之间找到一个平衡点既能处理未知词通过拆分成子词又能保证词汇表不会过于庞大。在代码实现中你需要仔细处理合并后文本的重新表示这是一个很好的编程练习。然而在后续的预训练章节项目转向使用tiktoken。这是一个重要的工程思维转换教学时我们从零理解原理实战时我们选用最鲁棒、最高效的工业级工具。tiktoken的cl100k_base编码器拥有约10万个Token涵盖了丰富的语言片段直接使用它能保证与主流模型兼容并避免自己实现分词器可能带来的边界错误。4.2 注意力机制模型为何能“把握重点”注意力机制是Transformer架构的引擎。它的直观理解是当模型在处理一个词例如“它”时它会去“注意”句子中其他所有词并决定从每个词那里汲取多少信息来帮助理解“它”。LLMs-from-scratch中实现的是因果自注意力Causal Self-Attention这是GPT类模型的关键。缩放点积注意力Scaled Dot-Product Attention的实现步骤线性变换对输入序列X分别进行三次线性变换得到查询Query、键Key、值Value矩阵Q XW_Q,K XW_K,V XW_V。计算注意力分数注意力分数 softmax( (Q * K^T) / sqrt(d_k) M )。Q * K^T计算了每个查询对所有键的匹配程度点积相似度。除以 sqrt(d_k)是一个关键技巧。因为点积值会随着维度d_k增大而变大导致softmax函数进入梯度极小的区域这个缩放操作稳定了训练。M是掩码矩阵。在解码器中为了确保当前位置只能关注到过去的位置不能“偷看”未来需要将未来位置的注意力分数设置为一个极大的负数如-1e9这样经过softmax后这些位置的权重就几乎为0。加权求和将注意力权重softmax输出与值矩阵V相乘得到每个位置的输出它包含了从其他相关位置聚合来的信息。多头注意力Multi-Head Attention则是将上述过程并行执行多次例如12个头每个头有不同的W_Q, W_K, W_V参数从而允许模型同时关注来自不同表示子空间的信息。最后将所有头的输出拼接起来再经过一个线性变换W_O投影回原始维度。在代码中你需要特别注意张量的形状变换。例如输入X的形状可能是(batch_size, seq_len, d_model)经过线性变换后Q的形状是(batch_size, seq_len, d_k)。为了并行计算多个头通常会用view或reshape操作将其变为(batch_size, num_heads, seq_len, head_dim)其中head_dim d_model / num_heads。计算完注意力后再变换回来。这是初学者容易出错的地方。4.3 GPT模型组装Transformer解码器堆叠GPT是一个纯解码器Decoder-Only架构。在实现完多头注意力模块后构建一个Transformer块就水到渠成了。一个标准的GPT块包含层归一化LayerNorm多头因果自注意力Multi-Head Causal Self-Attention残差连接Add另一个层归一化前馈网络Feed-Forward Network通常是两个线性层中间加一个GELU激活函数另一个残差连接将多个这样的块堆叠起来例如12层在最前面加上词嵌入层Token Embedding和位置编码层Positional Encoding在最后面加上一个用于输出词汇表概率的线性层LM Head就构成了完整的GPT模型。位置编码是一个值得深究的细节。由于Transformer本身没有循环或卷积结构它无法感知序列中元素的顺序。因此我们必须手动将位置信息注入到输入中。原始Transformer使用正弦余弦函数来生成绝对位置编码。而GPT以及后来的许多模型通常使用可学习的绝对位置编码即一个形状为(max_seq_len, d_model)的嵌入矩阵与词嵌入相加。在LLMs-from-scratch的实现中你会清晰地看到这一步。5. 训练全流程从“学语”到“对话”5.1 预训练让模型“博览群书”预训练的目标函数极其简单给定一个文本序列预测下一个词。例如输入“今天天气真”模型的目标是输出“好”。这个任务被称为自回归语言建模。实操步骤与核心配置数据准备使用datasets库加载一个大型文本语料库如wikitext-2。然后使用分词器如tiktoken将整个数据集转换为Token ID序列。构建数据加载器这是关键一步。我们需要将长序列切割成固定长度的上下文窗口Context Window例如512。同时为了高效训练需要构建一个能够随机生成批次Batch的数据加载器。每个批次的数据形状为(batch_size, context_window)对应的标签Labels是输入序列向右偏移一位。定义损失函数与优化器使用交叉熵损失CrossEntropyLoss。优化器通常选择AdamW它是Adam优化器加上权重衰减Weight Decay能更好地防止过拟合。学习率Learning Rate的设置至关重要通常会使用一个热身Warmup阶段让学习率从0逐渐上升到预设值然后再余弦衰减Cosine Decay到0。训练循环标准的PyTorch训练循环前向传播 - 计算损失 - 反向传播 - 优化器更新参数。需要定期在验证集上评估损失以监控模型是否过拟合。模型保存定期保存检查点Checkpoint包括模型参数、优化器状态和当前的训练步数以便在训练中断后可以恢复。心得预训练非常耗时即使在GPU上一个小模型在中等规模数据集上训练一个周期Epoch也可能需要数小时。耐心和监控是关键。务必使用tqdm显示进度并用matplotlib绘制训练/验证损失曲线。如果验证损失在多个周期后不再下降甚至开始上升可能就是过拟合的信号需要考虑提前停止Early Stopping或调整正则化策略。5.2 指令微调赋予模型“执行力”预训练模型就像一个知识渊博但缺乏社交技巧的学者它知道很多但不知道如何根据你的指令来组织答案。指令微调就是教它“礼貌”和“有用”。关键步骤解析准备指令数据集数据集格式通常是JSONL每行包含一个instruction指令、一个可选的input输入上下文和一个output期望输出。例如{instruction: 将以下英文翻译成中文, input: Hello, world!, output: 你好世界}。项目提供了工具来生成和清洗这类数据。格式化提示词我们需要将指令和输入如果有组合成一个固定的提示模板。例如“### Instruction:\n{instruction}\n\n### Input:\n{input}\n\n### Response:\n”。模型的任务是补全这个提示生成{output}部分。调整训练目标在指令微调中我们只计算模型对“Response”部分即目标答案的损失。提示部分Instruction和Input的Token在计算损失时会被掩码掉。这确保了模型学习的是如何根据指令生成回答而不是去记忆或复述指令本身。超参数调整指令微调通常使用比预训练小得多的学习率例如预训练学习率的1/10到1/100训练周期也更短1-3个周期。这是因为我们不想破坏模型在预训练中获得的大量通用知识只想微调其行为模式。一个常见的陷阱是“灾难性遗忘”模型在学会了遵循指令的同时可能忘记了之前学到的通用知识。为了缓解这一点除了使用小学习率有时还会在指令数据中混入少量预训练数据例如5%的纯文本数据这种方法被称为领域自适应预训练Domain-Adaptive Pretraining或混合训练。6. 实战避坑与性能调优指南6.1 常见错误与排查清单在复现这个项目的过程中我踩过不少坑。下面这个表格总结了一些典型问题及其解决方法问题现象可能原因排查与解决思路GPU内存溢出CUDA out of memory1. 批量大小Batch Size过大。2. 序列长度Context Window过长。3. 模型层数或隐藏维度太大。4. 梯度累积步数设置不当。1.首要降低Batch Size这是最有效的方法。2. 检查并减小max_seq_len。3. 使用torch.cuda.empty_cache()清理缓存。4. 使用梯度检查点Gradient Checkpointing以时间换空间。训练损失不下降NaN/Inf1. 学习率过高导致梯度爆炸。2. 数据中存在异常值或未处理的特殊字符。3. 层归一化或softmax的数值不稳定。1.大幅降低学习率并加入梯度裁剪Gradient Clipping。2. 检查数据预处理流程确保分词后没有未知TokenUNK过多。3. 在代码中添加torch.autograd.detect_anomaly()来定位产生NaN的具体操作。模型输出毫无意义或重复1. 在推理时未使用正确的采样策略。2. 预训练不充分模型未学到语言规律。3. 温度Temperature参数设置不当。1. 训练时使用交叉熵损失但推理时必须使用采样如Top-p或Top-k。直接取argmax会导致枯燥的重复。2. 增加预训练数据量和周期。3. 调整温度参数降低温度如0.7使输出更确定、保守提高温度如1.2使输出更多样、有创意。指令微调后模型“变傻”1. 学习率太大导致灾难性遗忘。2. 指令数据集质量差或规模太小。3. 微调时未对提示部分进行损失掩码。1. 使用更小的学习率例如5e-6和更少的训练周期。2. 尝试混合少量~5%预训练文本数据到指令数据中。3. 双重检查损失计算代码确保只对响应部分的Token求损失。推理速度极慢1. 未启用KV缓存KV Cache。2. 在CPU上运行推理。3. 使用了大模型但硬件跟不上。1.实现KV缓存在自回归生成时已计算的Key和Value向量可以被缓存避免为已生成的Token重复计算这是LLM推理加速的核心技术。项目Bonus材料中有详细实现。2. 确保模型和输入数据都在.to(device)到GPU上。3. 考虑模型量化Quantization或使用更小的模型。6.2 性能优化与进阶技巧当你的模型能够跑起来后下一步就是让它跑得更好、更快。混合精度训练使用torch.cuda.amp自动混合精度。这几乎是一个“免费”的加速手段。它能显著减少GPU显存占用从而允许你使用更大的批量大小或模型同时训练速度也能提升。核心是使用GradScaler来管理损失缩放防止梯度下溢。from torch.cuda.amp import autocast, GradScaler scaler GradScaler() for data in dataloader: with autocast(): loss model(data) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()梯度累积当你的GPU无法容纳理想的大批量数据时可以使用梯度累积来模拟。例如设置accumulation_steps4意味着每4个前向-反向传播周期才执行一次真正的参数更新optimizer.step()和optimizer.zero_grad()。这相当于将有效批量大小扩大了4倍但需要小心调整学习率。学习率调度不要使用固定学习率。余弦退火Cosine Annealing配合热身Warmup是LLM训练的金标准。Warmup让模型在训练初期以较小的学习率“热身”稳定地进入训练状态之后的余弦退火则让学习率平滑地下降到0有助于模型收敛到更优的局部最小值。参数高效微调PEFT当你想要微调一个非常大的模型比如70亿参数时全参数微调成本极高。LoRALow-Rank Adaptation是当前最流行的PEFT方法。它的思想是在原始模型的某些权重矩阵如注意力层的Q、V投影矩阵旁添加一个低秩分解的适配器Adapter只训练这些新增的、参数量极少的适配器而冻结原始模型参数。项目附录E提供了LoRA的从零实现这是将理论知识应用于实践的绝佳案例。模型架构探索在Bonus材料中项目引导你将实现的GPT转换为Llama架构。这涉及到将LayerNorm换成RMSNorm将ReLU激活换成SwiGLU/SiLU并使用旋转位置编码RoPE替代绝对位置编码。通过这样的练习你能深刻理解不同架构选择背后的设计权衡。7. 从项目到产品下一步可以做什么完成LLMs-from-scratch的所有核心章节后你已经拥有了一个可以工作的、小型的指令微调模型。但这只是一个起点。基于这个坚实的基础你可以向多个方向深入探索扩大规模实验尝试增加模型的层数、隐藏维度和注意力头数。观察模型性能如困惑度Perplexity如何随规模变化。你会在自己的机器上亲身验证“缩放定律”Scaling Laws的威力。尝试不同的数据集用代码去预训练一个中文模型或者在一个特定领域如医学、法律、代码的语料上进行继续预训练Continual Pretraining打造一个领域专家模型。实现更复杂的对齐技术书中提到了直接偏好优化DPO。你可以深入研究强化学习从人类反馈中学习RLHF的完整流程包括奖励模型Reward Model的训练和近端策略优化PPO算法的实现。部署与优化将训练好的模型转换为ONNX格式并使用像vLLM或TGI这样的高性能推理引擎进行部署。学习模型量化INT8/INT4和剪枝技术在资源受限的环境如手机、边缘设备中运行你的模型。参与开源社区用你从零构建的理解去阅读和贡献像transformers、lit-gpt这样的大型开源项目代码。你会发现自己能看懂绝大部分的实现并提出有见地的修改建议。这个项目的最大价值不在于你最终得到的那个小模型本身而在于你亲手走完LLM生命全周期所建立起的系统性认知。当你在新闻里看到“GPT-4o”、“Claude 3.5”时你看到的将不再是一个神秘的黑盒而是一系列你理解其原理的组件Transformer、注意力、层归一化的复杂组合与规模扩展。这种透过现象看本质的能力才是你在AI浪潮中保持清醒和创造力的根本。