别再死记硬背LSTM公式了！用Python手搓一个带遗忘门和输入门的‘记忆细胞’（附代码）

张

张建站

2026/5/26 11:28:04

10分钟阅读

别再死记硬背LSTM公式了！用Python手搓一个带遗忘门和输入门的‘记忆细胞’（附代码）

用Python从零构建LSTM记忆单元遗忘门与输入门的代码级解析在深度学习领域LSTM长短期记忆网络一直以其独特的记忆机制闻名。但很多学习者都面临一个困境看懂了公式却无法真正理解门控机制的工作原理。本文将带你用Python从零开始实现一个简化版的LSTM核心单元重点构建遗忘门和输入门通过可运行的代码让抽象的概念变得触手可及。1. 环境准备与基础概念在开始编码前我们需要明确几个关键概念。LSTM的核心是记忆细胞Memory Cell它通过三个门控机制遗忘门、输入门、输出门来选择性保留和更新信息。本次实现将聚焦前两个门遗忘门决定哪些历史信息需要丢弃输入门决定哪些新信息需要存储我们将使用Python 3.8和NumPy库进行实现。以下是所需环境的配置步骤pip install numpyLSTM的数学表达通常让人望而生畏但本质上它只是几种基本操作的组合矩阵乘法用于权重计算激活函数sigmoid和tanh逐元素操作如乘法(*)和加法()2. 构建LSTM基础结构让我们先定义LSTM单元的基本结构。一个简化版的LSTM单元需要维护两个状态细胞状态c_t长期记忆隐藏状态h_t短期记忆/输出import numpy as np class LSTMCell: def __init__(self, input_size, hidden_size): self.input_size input_size self.hidden_size hidden_size # 初始化权重矩阵 self.W_f np.random.randn(hidden_size, input_size hidden_size) self.W_i np.random.randn(hidden_size, input_size hidden_size) self.W_c np.random.randn(hidden_size, input_size hidden_size) # 初始化偏置项 self.b_f np.zeros((hidden_size, 1)) self.b_i np.zeros((hidden_size, 1)) self.b_c np.zeros((hidden_size, 1))这里我们只初始化了与遗忘门(f)、输入门(i)和候选细胞状态(c)相关的参数。每个权重矩阵的维度都是(hidden_size, input_size hidden_size)这是因为我们会将当前输入和前一个隐藏状态拼接起来作为输入。3. 实现遗忘门机制遗忘门是LSTM中最具哲学意味的设计——它决定哪些记忆值得保留。从代码角度看遗忘门实际上是一个sigmoid函数应用def sigmoid(self, x): return 1 / (1 np.exp(-x)) def forward(self, x, h_prev, c_prev): # 拼接输入和前一个隐藏状态 combined np.vstack((h_prev, x)) # 计算遗忘门 f_t self.sigmoid(np.dot(self.W_f, combined) self.b_f) # 应用遗忘门 c_t f_t * c_prev为什么选择sigmoid作为激活函数这与其数学特性密切相关特性解释在LSTM中的应用输出范围(0,1)可以表示保留比例0表示完全遗忘1表示完全保留平滑可导便于反向传播训练时梯度可以稳定传播非线性增强模型表达能力能够学习复杂的遗忘模式在实际运行中你可以这样测试遗忘门# 测试代码 input_size 3 hidden_size 2 lstm LSTMCell(input_size, hidden_size) x np.array([[0.5], [-0.2], [1.0]]) # 当前输入 h_prev np.array([[0.1], [-0.3]]) # 前一隐藏状态 c_prev np.array([[0.8], [0.5]]) # 前一细胞状态 f_t, c_t lstm.forward(x, h_prev, c_prev) print(遗忘门输出:, f_t) print(更新后的细胞状态:, c_t)4. 实现输入门与候选记忆输入门负责决定哪些新信息值得存储这涉及两个部分输入门本身决定更新哪些部分sigmoid候选细胞状态提供新信息tanhdef tanh(self, x): return np.tanh(x) def forward(self, x, h_prev, c_prev): # ...前面的遗忘门代码 # 计算输入门 i_t self.sigmoid(np.dot(self.W_i, combined) self.b_i) # 计算候选细胞状态 c_tilde self.tanh(np.dot(self.W_c, combined) self.b_c) # 更新细胞状态 c_t f_t * c_prev i_t * c_tilde为什么候选状态使用tanh而非sigmoid关键区别在于tanh输出范围(-1,1)适合表示新增信息的强度与方向sigmoid输出范围(0,1)适合做开关决策这种组合创造了LSTM强大的记忆更新机制遗忘门决定保留多少旧记忆f_t * c_prev输入门决定添加多少新记忆i_t * c_tilde5. 完整实现与测试现在我们将所有部分整合成一个完整的LSTM单元简化版class LSTMCell: def __init__(self, input_size, hidden_size): # ...初始化代码如前 def sigmoid(self, x): return 1 / (1 np.exp(-x)) def tanh(self, x): return np.tanh(x) def forward(self, x, h_prev, c_prev): # 拼接输入 combined np.vstack((h_prev, x)) # 遗忘门 f_t self.sigmoid(np.dot(self.W_f, combined) self.b_f) # 输入门 i_t self.sigmoid(np.dot(self.W_i, combined) self.b_i) # 候选细胞状态 c_tilde self.tanh(np.dot(self.W_c, combined) self.b_c) # 更新细胞状态 c_t f_t * c_prev i_t * c_tilde return c_t让我们用实际数据测试这个实现# 初始化参数 np.random.seed(42) input_size 4 hidden_size 3 lstm LSTMCell(input_size, hidden_size) # 模拟输入序列 inputs [ np.array([[0.1], [0.2], [-0.1], [0.3]]), np.array([[-0.2], [0.5], [0.1], [0.0]]), np.array([[0.3], [-0.4], [0.2], [0.1]]) ] # 初始状态 h_prev np.zeros((hidden_size, 1)) c_prev np.zeros((hidden_size, 1)) # 处理序列 for x in inputs: c_prev lstm.forward(x, h_prev, c_prev) print(f细胞状态更新为:\n{c_prev}\n)通过这个逐步实现你应该能直观感受到遗忘门如何调节历史记忆的保留程度输入门如何控制新信息的流入细胞状态如何随时间步演化6. 可视化理解门控机制为了更直观地理解我们可以可视化门控的操作过程。假设我们有一个维度为2的隐藏状态import matplotlib.pyplot as plt def visualize_gates(x, h_prev, c_prev): # 前向传播 combined np.vstack((h_prev, x)) f_t lstm.sigmoid(np.dot(lstm.W_f, combined) lstm.b_f) i_t lstm.sigmoid(np.dot(lstm.W_i, combined) lstm.b_i) c_tilde lstm.tanh(np.dot(lstm.W_c, combined) lstm.b_c)) # 可视化 fig, axes plt.subplots(1, 3, figsize(15, 4)) # 遗忘门 axes[0].bar(range(len(f_t)), f_t.flatten()) axes[0].set_title(遗忘门输出) axes[0].set_ylim(0, 1) # 输入门 axes[1].bar(range(len(i_t)), i_t.flatten()) axes[1].set_title(输入门输出) axes[1].set_ylim(0, 1) # 候选状态 axes[2].bar(range(len(c_tilde)), c_tilde.flatten()) axes[2].set_title(候选状态输出) axes[2].set_ylim(-1, 1) plt.tight_layout() plt.show() # 示例可视化 x_test np.array([[0.5], [-0.3], [0.1], [0.2]]) h_test np.array([[0.2], [-0.1], [0.3]]) c_test np.array([[0.4], [0.1], [-0.2]]) visualize_gates(x_test, h_test, c_test)这种可视化能清晰展示遗忘门和输入门如何在不同维度上做出不同决策候选状态如何提供有正有负的新信息各维度如何独立运作又协同工作7. 际应用中的技巧与陷阱在真实项目中实现LSTM时有几个关键点需要注意权重初始化使用太小或太大的初始化值都会导致训练困难推荐使用Xavier/Glorot初始化# Xavier初始化示例 scale np.sqrt(2.0 / (input_size hidden_size)) self.W_f np.random.randn(hidden_size, input_size hidden_size) * scale梯度问题虽然LSTM设计用于缓解梯度消失但仍可能出现梯度爆炸实践中常使用梯度裁剪# 梯度裁剪伪代码 max_grad_norm 5.0 grad_norm np.linalg.norm(gradients) if grad_norm max_grad_norm: gradients gradients * (max_grad_norm / grad_norm)数值稳定性sigmoid和tanh在极端输入时会产生饱和区实现时可添加保护措施def sigmoid(self, x): x np.clip(x, -50, 50) # 防止数值溢出 return 1 / (1 np.exp(-x))在自然语言处理任务中LSTM的记忆机制特别有用。例如在处理句子我去过巴黎埃菲尔铁塔很壮观时看到巴黎时输入门会记录这个地点信息看到埃菲尔铁塔时遗忘门会保留之前的巴黎信息整个过程中细胞状态维护着巴黎这个关键实体8. 扩展思考为什么LSTM有效通过我们的代码实现可以总结LSTM成功的几个关键设计门控机制精细控制信息流动不像普通RNN被动接受所有信息自主决定记住什么、忘记什么加法更新细胞状态的更新方式是相加而非替换保护梯度直接传播导数1避免传统RNN的连乘梯度消失解耦记忆与输出细胞状态专注于长期记忆隐藏状态处理短期交互这种设计使得LSTM特别适合处理具有长期依赖关系的序列数据如时间序列预测语音识别文本生成视频分析以下是一个简单的文本生成示例展示LSTM的记忆能力# 伪代码基于LSTM的文本生成 def generate_text(seed, lstm, length100): hidden np.zeros((hidden_size, 1)) cell np.zeros((hidden_size, 1)) output seed for _ in range(length): # 将当前字符转换为向量 x char_to_vec(output[-1]) # LSTM前向传播 cell, hidden lstm.forward(x, hidden, cell) # 预测下一个字符 next_char vec_to_char(hidden) output next_char return output在实际项目中你可能需要处理更复杂的情况比如批量处理、多层LSTM堆叠等。但核心的门控机制原理与我们实现的简化版是一致的。

Unity数字人开源项目避坑指南：27个真实兼容性问题解决方案

1. 这不是“又一个Unity数字人Demo”，而是一份踩过27个坑后整理的生存指南你搜“Unity数字人开源项目”，首页跳出来的基本是三类内容：GitHub上star数破千但README只有两行的仓库、B站播放量50万但代码链接404的教学视频、还有知乎上“如何用…...

2026/5/26 11:27:50 阅读更多 →

Apriori算法原理与实战：从购物篮分析到关联规则挖掘

1. 这不是教科书里的“关联规则”，而是超市收银台后的真实逻辑你有没有注意过，结账时收银员扫完一包薯片，系统立刻在屏幕上弹出“推荐：可乐薯片组合立减3元”？或者电商App在你把婴儿奶粉加入购物车后，自动…...

2026/5/26 11:27:47 阅读更多 →

WinForms窗体尺寸锁定：从属性失效到WM_GETMINMAXINFO深度拦截

1. 这不是“禁用缩放”那么简单：为什么窗体大小控制常被误判为“功能缺陷” 在Windows桌面应用开发中，我见过太多团队把“用户拖动窗体边框导致界面错位”当成UI框架Bug来报——其实90%以上的情况，根源就藏在窗体的 SizeMode属性与窗口样式位…...

2026/5/26 11:27:44 阅读更多 →

ML模型监控工具：监控和维护机器学习模型的性能

ML模型监控工具：监控和维护机器学习模型的性能一、ML模型监控工具概述 1.1 ML模型监控工具的定义 ML模型监控工具是指用于监控和维护机器学习模型性能的软件工具。它通过收集模型的预测数据、性能指标和数据质量，帮助用户了解模型的状态，及时…...

2026/5/26 19:26:34 阅读更多 →

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略引言在 AI 技术快速发展的今天，越来越多的 AI 工具涌现出来，帮助开发者提高工作效率。但对于许多开发者来说，面对众多的 AI 产品和服务，往往感到困惑：这…...

2026/5/25 8:18:41 阅读更多 →

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-downloader 还在…...

2026/5/26 5:08:33 阅读更多 →

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案【免费下载链接】Bifrost Cross-platform tool for downloading Samsung mobile device firmware. 项目地址: https://gitcode.com/gh_mirrors/sa/Bifrost 还在为三星设备固件下载而烦恼吗&#xff…...

2026/5/26 4:45:11 阅读更多 →