【论文学习】Transformer中的数据流动

张

张建站

2026/5/7 10:24:08

10分钟阅读

模型核心定位与目标模型类型GPT 类生成式 Transformer 模型核心任务预测下一个词 / 文本片段生成新文本学习方式从大量文本数据中自动学习规律用参数指导模型行为输入处理全流程1. 文本切分输入文本被切分为小片段token可以是单词、子词单元每个 token 是模型处理的最小单位2. 嵌入向量Embedding每个 token 对应一个向量一组数字用于编码该 token 的语义语义相近的词向量在高维空间中距离更近嵌入矩阵形状每行对应词汇表中一个词初始状态完全随机初始化作用存储每个 token 的基础语义向量局限原始嵌入仅编码单个词含义无上下文信息3. 向量更新机制嵌入向量会随上下文信息动态改变靠后续注意力模块完成上下文信息融合模型核心计算与模块1. 数据格式输入最终转为实数向量 / 高维矩阵模型内部参数称为权重权值计算方式矩阵乘法、加权和2. 注意力机制核心1作用让 token 之间互相传递信息、更新自身值自动判断上下文哪些词重要、哪些无关支持并行处理而非按序列依次交流2核心组件查询Query编码 “我要找什么信息” 的向量计算输入向量 × 矩阵 WQ 得到键Key编码 “我包含什么信息” 的向量计算输入向量 × 矩阵 WK 得到值Value最终用于更新的信息向量维度示例12288×12288 大矩阵可做低秩分解优化3计算流程计算Query 与 Key 的点积衡量匹配度匹配度越高权重越大方向一致为正相反为负权重归一化形成注意力分数0~1列和为 1用分数加权 Value得到注意力输出3. 掩码注意力Masked Attention训练关键技巧遮住后面的词规则用前面的词预测后面的词禁止后面的词干扰前面实现注意力矩阵左下三角置 0避免信息泄露4. 数值稳定性优化点积后除以维度平方根防止数值过大再输入 Softmax 做归一化5. 网络结构注意力层前馈层FFN交替堆叠多层叠加后向量被完全编码上下文语义模型有固定上下文长度限制一次只能处理固定数量向量过长会丢失早期信息输出与预测过程1. 最终输出取最后一层的最后一个向量用于预测下一个 token输出所有可能 token 的概率分布2. 数学计算最终向量 × 权重矩阵过Softmax函数把数值转为概率得到每个 token 接下来出现的概率3. 生成控制Temperature数值大概率更均匀生成更随机数值小高概率词占优势生成更确定、更 “死板”

Postman便携版终极指南：免安装的API测试神器

Postman便携版终极指南：免安装的API测试神器【免费下载链接】postman-portable 🚀 Postman portable for Windows 项目地址: https://gitcode.com/gh_mirrors/po/postman-portable 在当今快速发展的软件开发领域，API测试已成为确保系…...

2026/4/30 13:31:44 阅读更多 →

OmenSuperHub：惠普游戏本性能控制终极指南，轻松解锁硬件潜力

OmenSuperHub：惠普游戏本性能控制终极指南，轻松解锁硬件潜力【免费下载链接】OmenSuperHub 使用 WMI BIOS控制性能和风扇速度，自动解除DB功耗限制。项目地址: https://gitcode.com/gh_mirrors/om/OmenSuperHub OmenSuperHub 是一款专…...

2026/5/4 15:29:34 阅读更多 →

别再手动改配置了！用Docker Compose一键部署Collabora Online + Nextcloud（Ubuntu 22.04保姆级教程）

容器化协作办公环境：Docker Compose一键部署Nextcloud与Collabora Online全栈方案在自建云存储和协作办公领域，Nextcloud凭借其出色的文件管理和扩展能力已成为开源解决方案的标杆。而将Collabora Online与其集成，则能解锁媲美Google Docs的…...

2026/5/2 23:54:05 阅读更多 →

Zotero重复文献终极处理方案：ZoteroDuplicatesMerger完整使用指南

Zotero重复文献终极处理方案：ZoteroDuplicatesMerger完整使用指南【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 如果你正在为Zot…...

2026/5/5 10:36:05 阅读更多 →