用PyTorch和GAN生成MNIST数字：从环境配置到模型训练的完整指南

张

张建站

2026/5/8 17:22:54

10分钟阅读

用PyTorch和GAN生成MNIST数字从环境配置到模型训练的完整指南在人工智能的众多应用中生成对抗网络GAN无疑是最具创造力的技术之一。想象一下计算机能够凭空创造出逼真的图像、音乐甚至视频这听起来像是科幻小说中的情节但GAN让这一切成为现实。本文将带你从零开始使用PyTorch框架实现一个能够生成手写数字的GAN模型整个过程就像教计算机学习绘画一样有趣。对于初学者来说MNIST数据集是进入机器学习世界的经典起点。这个包含6万张手写数字图片的数据集以其简洁性和规范性著称。而当我们用GAN来生成这些数字时实际上是在让两个神经网络相互博弈——一个负责创造生成器一个负责鉴别判别器。这种对抗训练的过程往往能产生令人惊叹的结果。1. 环境准备与工具配置在开始这段AI创作之旅前我们需要搭建好开发环境。PyTorch作为当前最受欢迎的深度学习框架之一以其动态计算图和Pythonic的设计哲学赢得了大量开发者的青睐。1.1 安装PyTorch及相关依赖推荐使用Anaconda来管理Python环境它能有效解决包依赖问题。创建并激活一个专门的环境conda create -n gan_mnist python3.8 conda activate gan_mnist接着安装PyTorch根据你的硬件配置选择合适的版本# 无CUDA支持的CPU版本 conda install pytorch torchvision torchaudio cpuonly -c pytorch # 有NVIDIA GPU的版本以CUDA 11.3为例 conda install pytorch torchvision torchaudio cudatoolkit11.3 -c pytorch验证安装是否成功import torch print(torch.__version__) print(CUDA可用:, torch.cuda.is_available())1.2 数据集获取与预处理MNIST数据集可以通过torchvision直接下载但国内用户可能会遇到下载速度慢的问题。这里提供两种解决方案手动下载从MNIST官网获取四个文件train-images-idx3-ubyte.gz等放入项目目录下的mnist_data/MNIST/raw/文件夹使用镜像源修改PyTorch源码中的下载URL替换为国内镜像源提示完整的数据预处理流程包括归一化、转换为张量等操作这些将在后续代码中体现2. GAN模型架构设计理解GAN的双网络结构是成功实现的关键。生成器(Generator)和判别器(Discriminator)就像艺术伪造者与鉴定专家在对抗中共同进步。2.1 判别器网络实现判别器的任务是区分真实图片和生成图片本质上是一个二分类器class Discriminator(nn.Module): def __init__(self, input_size784, hidden_size256): super(Discriminator, self).__init__() self.model nn.Sequential( nn.Linear(input_size, hidden_size), nn.LeakyReLU(0.2), # 负斜率设为0.2 nn.Dropout(0.3), # 添加Dropout防止过拟合 nn.Linear(hidden_size, hidden_size), nn.LeakyReLU(0.2), nn.Dropout(0.3), nn.Linear(hidden_size, 1), nn.Sigmoid() # 输出0到1的概率值 ) def forward(self, x): return self.model(x)2.2 生成器网络实现生成器从随机噪声中创造图像结构上与判别器对称但功能相反class Generator(nn.Module): def __init__(self, latent_size100, hidden_size256, output_size784): super(Generator, self).__init__() self.model nn.Sequential( nn.Linear(latent_size, hidden_size), nn.ReLU(), nn.BatchNorm1d(hidden_size), # 添加批归一化 nn.Linear(hidden_size, hidden_size), nn.ReLU(), nn.BatchNorm1d(hidden_size), nn.Linear(hidden_size, output_size), nn.Tanh() # 输出在-1到1之间 ) def forward(self, z): return self.model(z)2.3 模型初始化与设备配置将模型移到GPU如果可用并初始化权重device torch.device(cuda if torch.cuda.is_available() else cpu) # 初始化模型 D Discriminator().to(device) G Generator().to(device) # 使用Xavier初始化 def weights_init(m): classname m.__class__.__name__ if classname.find(Linear) ! -1: nn.init.xavier_normal_(m.weight) nn.init.zeros_(m.bias) D.apply(weights_init) G.apply(weights_init)3. 训练过程与优化策略GAN的训练过程就像一场精心编排的舞蹈需要平衡两个网络的进步速度。3.1 损失函数与优化器选择# 二元交叉熵损失 criterion nn.BCELoss() # 使用Adam优化器设置不同的学习率 d_optimizer torch.optim.Adam(D.parameters(), lr0.0002, betas(0.5, 0.999)) g_optimizer torch.optim.Adam(G.parameters(), lr0.0002, betas(0.5, 0.999)) # 学习率调度器 d_scheduler torch.optim.lr_scheduler.StepLR(d_optimizer, step_size30, gamma0.1) g_scheduler torch.optim.lr_scheduler.StepLR(g_optimizer, step_size30, gamma0.1)3.2 训练循环实现训练GAN时需要交替更新两个网络def train_discriminator(real_images, d_optimizer): # 真实图片的损失 real_labels torch.ones(real_images.size(0), 1).to(device) outputs D(real_images) d_loss_real criterion(outputs, real_labels) real_score outputs # 生成图片的损失 z torch.randn(real_images.size(0), latent_size).to(device) fake_images G(z) fake_labels torch.zeros(fake_images.size(0), 1).to(device) outputs D(fake_images.detach()) d_loss_fake criterion(outputs, fake_labels) fake_score outputs # 总损失和优化 d_loss d_loss_real d_loss_fake d_optimizer.zero_grad() d_loss.backward() d_optimizer.step() return d_loss, real_score, fake_score def train_generator(g_optimizer): z torch.randn(batch_size, latent_size).to(device) fake_images G(z) labels torch.ones(batch_size, 1).to(device) g_loss criterion(D(fake_images), labels) g_optimizer.zero_grad() g_loss.backward() g_optimizer.step() return g_loss, fake_images3.3 训练监控与可视化在训练过程中实时监控损失和生成质量# 训练前准备 num_epochs 200 sample_size 16 fixed_z torch.randn(sample_size, latent_size).to(device) for epoch in range(num_epochs): for i, (images, _) in enumerate(dataloader): # 准备真实图片 images images.reshape(-1, 784).to(device) # 训练判别器 d_loss, real_score, fake_score train_discriminator(images, d_optimizer) # 训练生成器 g_loss, fake_images train_generator(g_optimizer) # 每100步打印一次信息 if i % 100 0: print(fEpoch [{epoch}/{num_epochs}], Step [{i}/{len(dataloader)}], fD Loss: {d_loss.item():.4f}, G Loss: {g_loss.item():.4f}, fD(x): {real_score.mean().item():.2f}, D(G(z)): {fake_score.mean().item():.2f}) # 更新学习率 d_scheduler.step() g_scheduler.step() # 每个epoch保存生成的图片 with torch.no_grad(): fake_images G(fixed_z).reshape(-1, 1, 28, 28) save_image(fake_images, fgenerated_images/epoch_{epoch1}.png, nrow4, normalizeTrue)4. 结果评估与模型调优训练完成后我们需要评估生成器的表现并探索可能的改进方向。4.1 生成样本可视化def plot_generated_images(epoch): with torch.no_grad(): z torch.randn(16, latent_size).to(device) generated G(z).cpu().reshape(-1, 28, 28) plt.figure(figsize(8, 8)) for i in range(16): plt.subplot(4, 4, i1) plt.imshow(generated[i], cmapgray) plt.axis(off) plt.tight_layout() plt.savefig(fgenerated_epoch_{epoch}.png) plt.show() plot_generated_images(num_epochs)4.2 常见问题与解决方案在GAN训练过程中可能会遇到以下典型问题问题现象可能原因解决方案生成器输出无意义噪声模式崩溃(Mode Collapse)增加噪声维度、使用Mini-batch判别判别器损失快速降为0判别器过强降低判别器学习率、减少判别器层数生成样本模糊损失函数不适合尝试Wasserstein损失或LSGAN训练不稳定学习率过高逐步降低学习率、使用学习率调度4.3 进阶改进方向当基础模型运行良好后可以考虑以下增强方案DCGAN架构使用卷积层替代全连接层条件GAN添加标签信息控制生成数字类别Wasserstein GAN使用Wasserstein距离改善训练稳定性渐进式增长从低分辨率开始逐步增加生成图片尺寸# DCGAN生成器示例 class DCGenerator(nn.Module): def __init__(self, latent_dim100): super(DCGenerator, self).__init__() self.model nn.Sequential( nn.ConvTranspose2d(latent_dim, 256, 4, 1, 0, biasFalse), nn.BatchNorm2d(256), nn.ReLU(True), nn.ConvTranspose2d(256, 128, 4, 2, 1, biasFalse), nn.BatchNorm2d(128), nn.ReLU(True), nn.ConvTranspose2d(128, 64, 4, 2, 1, biasFalse), nn.BatchNorm2d(64), nn.ReLU(True), nn.ConvTranspose2d(64, 1, 4, 2, 1, biasFalse), nn.Tanh() ) def forward(self, z): z z.view(z.size(0), z.size(1), 1, 1) return self.model(z)在实际项目中我发现调整噪声维度对生成质量影响显著。将latent_size从64增加到128后生成的数字更加清晰多样。另一个实用技巧是在训练初期使用较高的学习率如0.002然后在50个epoch后逐步降低到0.0001这样既能加快收敛速度又能保证最终生成质量。

嵌入式可编程性：eFPGA如何成为应对芯片设计风险与碎片化市场的关键技术

1. 嵌入式可编程性的“迟到”与“必然”在半导体行业摸爬滚打了十几年，我亲眼见证了无数技术概念的潮起潮落。有些是昙花一现，有些则像一场漫长的马拉松，比如我们今天要聊的“嵌入式可编程性”。这个概念，说白了就是把FPGA&#x…...

2026/5/8 17:21:26 阅读更多 →

大学计算机专业学C语言好吗 2027就业前景如何

对于计算机专业的学生，C语言不是一个“可选项”，而是一个“必选项”和“优选项”。它的价值远超语言本身：理解计算机的“底层逻辑”：C语言直接操作内存、指针、地址，这迫使你去理解数据在内存中如何存储、函数调用时栈…...

2026/5/8 17:20:23 阅读更多 →

Python+Pytest-BDD UIAPI自动化测试项目架构设计与落地实践

文章目录前言一、项目介绍二、核心技术栈说明1、核心主体框架：pytest-BDD2、编程语言与底层驱动：Python生态3、UI自动化驱动：桌面端专属适配4、辅助能力全覆盖三、项目目录架构设计逻辑第一层： .agents AI智能辅助能力层第二层&am…...

2026/5/8 17:20:20 阅读更多 →

Zotero重复文献终极处理方案：ZoteroDuplicatesMerger完整使用指南

Zotero重复文献终极处理方案：ZoteroDuplicatesMerger完整使用指南【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 如果你正在为Zot…...

2026/5/7 22:07:22 阅读更多 →