模型核心定位与目标模型类型GPT 类生成式 Transformer 模型核心任务预测下一个词 / 文本片段生成新文本学习方式从大量文本数据中自动学习规律用参数指导模型行为输入处理全流程1. 文本切分输入文本被切分为小片段token可以是单词、子词单元每个 token 是模型处理的最小单位2. 嵌入向量Embedding每个 token 对应一个向量一组数字用于编码该 token 的语义语义相近的词向量在高维空间中距离更近嵌入矩阵形状每行对应词汇表中一个词初始状态完全随机初始化作用存储每个 token 的基础语义向量局限原始嵌入仅编码单个词含义无上下文信息3. 向量更新机制嵌入向量会随上下文信息动态改变靠后续注意力模块完成上下文信息融合模型核心计算与模块1. 数据格式输入最终转为实数向量 / 高维矩阵模型内部参数称为权重权值计算方式矩阵乘法、加权和2. 注意力机制核心1作用让 token 之间互相传递信息、更新自身值自动判断上下文哪些词重要、哪些无关支持并行处理而非按序列依次交流2核心组件查询Query编码 “我要找什么信息” 的向量计算输入向量 × 矩阵 WQ​ 得到键Key编码 “我包含什么信息” 的向量计算输入向量 × 矩阵 WK​ 得到值Value最终用于更新的信息向量维度示例12288×12288 大矩阵可做低秩分解优化3计算流程计算Query 与 Key 的点积衡量匹配度匹配度越高权重越大方向一致为正相反为负权重归一化形成注意力分数0~1列和为 1用分数加权 Value得到注意力输出3. 掩码注意力Masked Attention训练关键技巧遮住后面的词规则用前面的词预测后面的词禁止后面的词干扰前面实现注意力矩阵左下三角置 0避免信息泄露4. 数值稳定性优化点积后除以维度平方根防止数值过大再输入 Softmax 做归一化5. 网络结构注意力层 前馈层FFN交替堆叠多层叠加后向量被完全编码上下文语义模型有固定上下文长度限制一次只能处理固定数量向量过长会丢失早期信息输出与预测过程1. 最终输出取最后一层的最后一个向量用于预测下一个 token输出所有可能 token 的概率分布2. 数学计算最终向量 × 权重矩阵过Softmax函数把数值转为概率得到每个 token 接下来出现的概率3. 生成控制Temperature数值大概率更均匀生成更随机数值小高概率词占优势生成更确定、更 “死板”