从Sigmoid到CrossEntropy：一个LogSumExp技巧如何串联起深度学习的稳定性（避坑指南）

张

张建站

2026/4/29 15:42:39

10分钟阅读

从Sigmoid到CrossEntropy：一个LogSumExp技巧如何串联起深度学习的稳定性（避坑指南）

从Sigmoid到CrossEntropyLogSumExp如何成为深度学习稳定性的隐形守护者第一次在PyTorch里调用nn.CrossEntropyLoss()时我盯着那个突然出现的NaN值愣了半天。屏幕上那些理论上应该收敛的损失曲线因为几个诡异的无穷大数值彻底崩坏——这大概是每个深度学习实践者都会经历的数值崩溃初体验。后来才发现从Sigmoid激活函数到Softmax输出层再到交叉熵损失计算整个深度学习的概率计算链条都暗藏着数值不稳定的陷阱。而LogSumExp这个看似简单的数学技巧竟是贯穿始终的稳定性基石。1. Sigmoid函数数值稳定性的第一道防线在二分类任务中Sigmoid函数负责将线性输出压缩到(0,1)区间。其标准定义σ(x)1/(1exp(-x))看似无害却隐藏着两个致命陷阱# 典型的问题实现 def naive_sigmoid(x): return 1.0 / (1.0 math.exp(-x))当x为极大的负数时exp(-x)会发生上溢(overflow)。例如在FP32精度下exp(710)就会触发溢出错误。反过来当x为正极大值时虽然1exp(-x)不会溢出但可能出现下溢(underflow)——exp(-x)小到被舍入为0导致分母变为1输出恒为1。分段计算策略完美解决了这个问题def stable_sigmoid(x): if x 0: return 1.0 / (1.0 math.exp(-x)) else: exp_x math.exp(x) return exp_x / (1.0 exp_x)这种写法的精妙之处在于当x≥0时计算1/(1exp(-x))此时exp(-x)∈(0,1]不会上溢当x0时计算exp(x)/(1exp(x))此时exp(x)∈(0,1)不会上溢输入范围计算公式防溢出机制x ≥ 01/(1exp(-x))避免exp(x)上溢x 0exp(x)/(1exp(x))避免exp(-x)上溢实际测试显示改进后的sigmoid能正确处理±1000范围内的输入而原始实现当x-1000时就会抛出溢出错误2. Softmax与LogSumExp概率计算的动态平衡术当场景扩展到多分类问题Softmax函数需要同时处理多个输入的指数运算$$ \text{Softmax}(x_i) \frac{\exp(x_i)}{\sum_{j1}^n \exp(x_j)} $$这里暗藏双重危机分子上溢某个$x_i$极大时$\exp(x_i)$超出浮点表示范围分母下溢所有$x_i$都很小时$\sum \exp(x_i)$可能下溢为0LogSumExp技巧通过引入最大值平移解决了这个问题def softmax(x): b np.max(x, axis-1, keepdimsTrue) exp_x np.exp(x - b) return exp_x / np.sum(exp_x, axis-1, keepdimsTrue)其数学本质是$$ \text{Softmax}(x_i) \frac{\exp(x_i - b)}{\sum_j \exp(x_j - b)}, \quad b \max_j x_j $$这种变换保持数学等价性的同时确保最大指数项$\exp(x_i-b)$为1防止上溢分母至少有一个1防止除零错误3. 交叉熵损失对数空间的安全计算交叉熵损失结合了Softmax和负对数似然$$ \text{CE} -\sum y_i \log(p_i), \quad p_i\text{Softmax}(x_i) $$直接计算会遭遇两个问题Softmax可能输出0导致log(0)-∞中间步骤的指数运算仍可能溢出LogSoftmax应运而生def log_softmax(x): b np.max(x, axis-1, keepdimsTrue) return x - b - np.log(np.sum(np.exp(x - b), axis-1, keepdimsTrue))这实际上是LogSumExp的变形$$ \log(\text{Softmax}(x_i)) x_i - \text{LogSumExp}(x) $$其中$\text{LogSumExp}(x) b \log\sum_j \exp(x_j - b)$。现代深度学习框架如PyTorch的nn.CrossEntropyLoss正是基于这种实现# PyTorch内部等效实现 logits ... # 模型原始输出 loss -logits[class_idx] torch.logsumexp(logits, dim-1)4. 工程实践中的进阶技巧在实际项目中我们还需要注意混合精度训练中的稳定性# 自动混合精度训练的最佳实践 with torch.cuda.amp.autocast(): outputs model(inputs) loss criterion(outputs, labels) scaler.scale(loss).backward()数值梯度检查技巧def grad_check(): logits torch.randn(3, requires_gradTrue) probs F.softmax(logits, dim0) # 应使用log_softmax避免数值问题 log_probs F.log_softmax(logits, dim0)不同框架的实现差异框架关键实现特点PyTorchlogsumexp sub默认使用高效C实现TensorFlowtf.math.reduce_logsumexp支持XLA优化NumPynp.logaddexp.reduce适合原型开发在自定义层实现时我曾遇到一个典型陷阱当所有输入都是较大负数时即使使用LogSumExp$\exp(x_i-b)$仍可能下溢为0。这时需要额外处理def safe_log_softmax(x): b np.max(x, axis-1, keepdimsTrue) exp_x np.exp(x - b) # 处理全零特殊情况 sum_exp np.sum(exp_x, axis-1, keepdimsTrue) sum_exp[sum_exp 0] np.finfo(x.dtype).tiny return x - b - np.log(sum_exp)

手把手教你用Simulink搭建PMSM无感FOC：基于MRAS的转速观测器从理论到仿真

永磁同步电机无感FOC实战：基于MRAS的Simulink建模与参数调优指南当我在实验室第一次成功让永磁同步电机(PMSM)在无传感器状态下稳定运行时，那种成就感至今难忘。MRAS(模型参考自适应)算法作为无感FOC控制中的经典方法，其核心思想是通过构建参…...

2026/4/29 15:42:27 阅读更多 →

基于Electron架构的多模态AI客户端Chatbox技术解析

基于Electron架构的多模态AI客户端Chatbox技术解析【免费下载链接】chatbox Powerful AI Client 项目地址: https://gitcode.com/GitHub_Trending/ch/chatbox Chatbox是一款基于Electron框架构建的跨平台AI桌面客户端，采用TypeScriptReact技术栈&#xff0c…...

2026/4/29 15:39:32 阅读更多 →

python setuptools

# Python Setuptools：构建工具里的那把瑞士军刀写Python代码写了些年头，经历了从手动拷贝文件到用现代工具链的演变。这期间接触了不少构建相关的东西，但Setuptools始终是个绕不开的话题。它就像一个老朋友，虽然偶尔会有些固执己…...

2026/4/29 15:39:32 阅读更多 →

PowerShell脚本编译终极指南：如何用Win-PS2EXE轻松打包脚本为EXE文件

PowerShell脚本编译终极指南：如何用Win-PS2EXE轻松打包脚本为EXE文件【免费下载链接】PS2EXE Module to compile powershell scripts to executables 项目地址: https://gitcode.com/gh_mirrors/ps/PS2EXE 还在为PowerShell脚本分发而烦恼吗？每次…...

2026/4/29 13:00:34 阅读更多 →