吴恩达《深度学习》之看懂 Momentum 的“惯性天平”

张

张建站

2026/7/3 18:20:25

10分钟阅读

现在把目光锁定在Momentum动量法的超参数β\betaβ上。我们在解构现代优化器时曾把动量比喻为“让小球带着历史惯性滚下山”。但正如真实的物理世界一样“惯性”是一把极其锋利的双刃剑惯性太小小球依然会随波逐流惯性太大小球在急转弯时就会直接冲出悬崖。我现在描述的困境——“纵轴疯狂横跳横轴举步维艰”——正是最经典的陡峭峡谷地形。你直觉地开启了 Momentum并将β\betaβ设为了 0.5但发现效果微乎其微。核心知识点场景问题代价函数JJJ纵轴震荡剧烈、横轴推进缓慢鞍点或峡谷地形。目前β0.5\beta0.5β0.5效果不明显。核心决策应该调大β\betaβ例如调至工业标准 0.9。数学与物理核心指数加权平均的数学直觉为平均历史步数≈11−β\text{平均历史步数} \approx \frac{1}{1 - \beta}平均历史步数≈1−β1。副作用如果β\betaβ过大如 0.98会导致模型的**“适应速度Adaptability”严重钝化**在地形突变时产生严重的**冲过头Overshoot**和盲目漂移现象。来让我们通过一场关于“重量级赛车”的思维实验把这个超参数背后的物理权衡Trade-off彻底剥得一干二净。第一步拆解β0.5\beta 0.5β0.5的“轻量级滑板车”困境首先我们要用物理直觉来理解β\betaβ这个数字。在指数加权平均Exponentially Weighted Moving Average中有一个经典的统计学经验公式平均历史步数≈11−β\text{平均历史步数} \approx \frac{1}{1 - \beta}平均历史步数≈1−β1提问1. 当你设定β0.5\beta 0.5β0.5时代入公式11−0.52\frac{1}{1 - 0.5} 21−0.512。这意味着当前这一步的更新只包含了过去大约 2 次迭代的记忆。2. 想象一下小球在纵轴上下方向上由于坡度太陡每 1 次迭代就会改变一次方向上一秒往上下一秒往下。如果你的小球只记得过去 2 步的记忆那么当它在纵轴上疯狂来回横跳时这短短 2 步的记忆能够大义凛然地把上下相反的方向给抵消掉吗此时的小球究竟是一辆稳重的“重型坦克”还是一个毫无定力、跟着地形到处乱晃的“轻量级滑板车”解析根本抵消不掉2 步的记忆太短了正负梯度交替出现时小球还没来得及把纵向的震荡相互抵消就会立刻被当前这一步剧烈的纵向梯度给带偏继续在峡谷两壁疯狂撞击。因此你的第一个决策为了彻底压制纵轴的疯狂摆动我们必须调大β\betaβ比如工业标准的 0.9平均过去 10 次的梯度让历史的巨大惯性去强行抹平上下横跳的噪声。第二步当β→0.98\beta \to 0.98β→0.98的“重型货轮”灾难既然调大β\betaβ能带来平滑的路径很多同学就会陷入另一个极端“既然惯性这么好那我为什么不直接把它拉满我设β0.98\beta 0.98β0.98平均过去整整 50 次的梯度不是更平滑、更完美吗”让我们推演一下当参数空间的地形发生剧烈改变时这颗“重型货轮”会发生什么。提问假设我们的优化路径原本是一条一直向右冲刺的高速公路。由于β0.98\beta 0.98β0.98你的小球已经连续往右狂奔了 100 步身上凝聚了极其恐怖的、向右冲刺的巨大历史动量。但就在此刻地形突然发生了一个180∘180^\circ180∘的急转弯——全局最优解其实已经错过了真正正确的方向现在变成了立刻向左转。请问此时此刻面对突然往左的全新梯度你这颗背负着过去 50 步向右记忆的“重型货轮”能够立刻敏锐地刹车并原地掉头吗在它真正转过弯来之前它会顺着原本的惯性往错误的方向继续盲目地“漂移”多少步物理直觉瞬间觉醒它根本停不下来它会像一辆在冰面上失控的重型卡车在错误的方向上滑行很久冲过头Overshoot直到向左的新梯度产生的力量把过去庞大的向右动量一点点磨损、消耗干净后模型才能艰难掉头。第三步总结——适应速度的“钝化”副作用这就是高β\betaβ如 0.98会带来的致命副作用模型对地形变化的“适应速度Adaptability”严重钝化。历史包袱太重网络在当前时刻做出的决策极大地受到了“遥远历史”的拖累导致无法对突变的地形做出即时反馈。延迟与迟钝当网络真正进入平缓的谷底最优解附近时它不会优雅地停下来而是会由于身上的巨大惯性在谷底中心来回反复冲刺、荡秋千导致收敛变得极其拖泥带水。第四步PyTorch 里的“黄金平衡点”代码落地正是由于这种“压制摆动”与“丧失灵敏度”之间的天平两端平衡科学家通过无数次工业实验在 PyTorch 中为 Momentum 设定了一个几乎雷打不动的黄金平衡点——0.9平均过去 10 步的合力。importtorchimporttorch.optimasoptim# 场景重现面对纵轴横跳、横轴缓慢的网络# ❌ 错误写法momentum0.5 (惯性太小压不住摆动沦为滑板车)# ⚠️ 极端写法momentum0.98 (惯性太大急转弯时会失控冲过头沦为重型货轮)# ✨ 工业黄金黑客决策# 设为 0.9既能用 10 步的历史期望完美抵消纵轴的上下震荡# 又保留了足够的灵敏度不至于在地形突变时掉进盲目漂移的泥潭。optimizeroptim.SGD(model.parameters(),lr0.01,momentum0.9)总结让我们用一行最雅致的极客因果链复盘这场关于惯性的中庸之道β0.5 ⟹ 记忆太短 (2 步) ⟹ 沦为滑板车对剧烈摆动毫无抵抗力\beta 0.5 \implies \text{记忆太短 (2 步)} \implies \text{沦为滑板车对剧烈摆动毫无抵抗力}β0.5⟹记忆太短(2步)⟹沦为滑板车对剧烈摆动毫无抵抗力β→0.98 ⟹ 记忆太长 (50 步) ⟹ 沦为重型货轮面对急转弯严重“冲过头”钝化自适应力\beta \to 0.98 \implies \text{记忆太长 (50 步)} \implies \text{沦为重型货轮面对急转弯严重“冲过头”钝化自适应力}β→0.98⟹记忆太长(50步)⟹沦为重型货轮面对急转弯严重“冲过头”钝化自适应力β0.9 ⟹ 黄金中庸 (10 步) ⟹ 既用历史合力强消无谓震荡又保留随时掉头的黑客灵敏度\beta 0.9 \implies \text{黄金中庸 (10 步)} \implies \text{既用历史合力强消无谓震荡又保留随时掉头的黑客灵敏度}β0.9⟹黄金中庸(10步)⟹既用历史合力强消无谓震荡又保留随时掉头的黑客灵敏度在深度学习的哲学里超参数的微调从来都不是一味地追求极端。大智慧的优化器应该像一个经验丰富的赛车手既懂得借助历史的下坡势能大步流星又时刻保持着对脚下未知盲区微小变化的警惕与敬畏。欢迎在评论区留下你的思考我们今天讨论了 Momentum动量法通过调大β\betaβ来利用历史梯度压制震荡。那么在如今大行其道的Adam 优化器中它不仅有一阶动量β1\beta_1β1默认 0.9还引入了二阶动量β2\beta_2β2默认 0.999。为什么二阶动量控制步长缩放的动态感知器的β2\beta_2β2居然可以放心地设到 0.999 这么大而不会像一阶动量一样产生严重的“冲过头”灾难