FPGA新手必看：用Verilog手搓一个4位乘法器，从移位相加原理到仿真验证

张

张建站

2026/6/11 3:31:03

10分钟阅读

FPGA实战从零构建4位乘法器的Verilog实现与深度解析第一次接触FPGA数字电路设计时看到教科书上那些抽象的乘法器原理图总让人望而生畏。直到亲手用Verilog代码实现了一个4位乘法器才真正理解硬件设计的思维方式与传统软件编程的本质区别。本文将带你用移位相加这一经典算法从二进制乘法的底层逻辑出发逐步构建完整的硬件实现方案。1. 移位相加算法的硬件思维想象一下小学时用竖式做乘法的过程将乘数的每一位与被乘数相乘然后根据位数进行移位最后把所有部分积相加。移位相加算法正是这一过程的硬件实现但需要从电路设计的角度重新思考。以4位二进制乘法为例计算1010(10) × 0110(6)1010 (被乘数A) × 0110 (乘数B) ------- 0000 (B[0]0不操作) 1010 (B[1]1A左移1位) 1010 (B[2]1A左移2位) 0000 (B[3]0不操作) ------- 00111100 (最终结果60)硬件实现的关键点在于移位即连线在硬件中左移n位不需要时钟操作只需将信号线连接到高位即可选择器替代判断通过乘数的对应位控制数据选择器(MUX)决定是否保留部分积并行处理所有部分积可以同时生成最后通过加法器树合并位宽计算规则两个n位数相乘结果最大需要2n位存储4位乘法器输出应为8位(2×4)防止溢出// 位宽定义示例 input [3:0] data_a; // 4位被乘数 input [3:0] data_b; // 4位乘数 output [7:0] data_o; // 8位结果2. 硬件架构设计与Verilog实现2.1 电路结构分解完整的4位乘法器包含三个核心模块移位模块生成A×1、A×2、A×4、A×8的中间结果选择模块根据B的对应位决定是否采用该部分积加法模块将有效的部分积累加得到最终结果(图示数据流经移位、选择和加法三个阶段)2.2 逐步实现Verilog代码首先定义移位信号注意位宽的扩展wire [4:0] shift_1bit {data_a, 1b0}; // A左移1位(×2) wire [5:0] shift_2bit {data_a, 2b0}; // A左移2位(×4) wire [6:0] shift_3bit {data_a, 3b0}; // A左移3位(×8)接着实现选择器逻辑使用条件运算符简化代码wire [3:0] d1 data_b[0] ? data_a : 4d0; // B[0]控制 wire [4:0] d2 data_b[1] ? shift_1bit : 5d0; // B[1]控制 wire [5:0] d3 data_b[2] ? shift_2bit : 6d0; // B[2]控制 wire [6:0] d4 data_b[3] ? shift_3bit : 7d0; // B[3]控制最后实现三级加法结构展示两种加法实现方式// 方法1直接使用运算符 wire [5:0] stage1 {2b0, d1} {1b0, d2}; wire [7:0] stage2 {2b0, d3} {1b0, d4}; wire [7:0] result {2b0, stage1} stage2; // 方法2实例化专用加法器模块 adder_6bit adder1(.data_a({2b0, d1}), .data_b({1b0, d2}), .data_o(stage1)); adder_8bit adder2(.data_a({2b0, d3}), .data_b({1b0, d4}), .data_o(stage2)); adder_8bit adder3(.data_a({2b0, stage1}), .data_b(stage2), .data_o(result));关键提示加法器的级联顺序会影响关键路径延迟在实际设计中需要考虑时序优化3. 仿真验证与调试技巧3.1 测试用例设计策略有效的测试用例应覆盖以下场景测试类型示例输入预期输出边界情况1111 × 111111100001零值检测0000 × 101000000000一位有效0001 × 001000000010随机组合0110 × 1101010010103.2 Vivado仿真实战创建测试模块时注意这些要点module tb_mult_4bit(); reg [3:0] a, b; wire [7:0] out; // 实例化被测模块 mult_4bit uut (.data_a(a), .data_b(b), .data_o(out)); initial begin // 边界测试 a 4b1111; b 4b1111; #100; $display(15x15%d, out); // 自动生成测试序列 for (int i0; i16; i) begin for (int j0; j16; j) begin a i; b j; #10; if (out ! i*j) $error(%dx%d%d (预期%d), i,j,out,i*j); end end end endmodule常见仿真问题排查结果全零检查选择器控制信号是否正确连接部分位错误确认加法器位宽是否匹配时序违例添加适当的时钟延迟或流水线调试技巧在波形图中标记关键信号如部分积、中间和使用颜色区分不同阶段4. 性能优化与扩展思路4.1 关键路径分析通过时序分析可以发现选择器延迟~0.2ns6位加法器延迟~0.8ns8位加法器延迟~1.2ns总延迟选择器加法器×2 ≈ 3.2ns优化方案对比方案延迟资源消耗实现复杂度原始串行3.2ns低简单全并行加法1.2ns高中等流水线版1.2ns中复杂4.2 扩展至8位乘法器基于4位模块构建8位乘法器的策略module mult_8bit( input [7:0] data_a, input [7:0] data_b, output [15:0] data_o ); // 将8位乘法分解为4个4位乘法 wire [7:0] p0 data_a[3:0] * data_b[3:0]; // A0×B0 wire [7:0] p1 data_a[7:4] * data_b[3:0]; // A1×B0 wire [7:0] p2 data_a[3:0] * data_b[7:4]; // A0×B1 wire [7:0] p3 data_a[7:4] * data_b[7:4]; // A1×B1 // 组合部分积注意移位对齐 assign data_o p0 (p1 4) (p2 4) (p3 8); endmodule这种级联设计的特点复用已验证的4位模块降低开发风险总延迟 ≈ 4位乘法延迟加法器延迟资源消耗约为4个4位乘法器加3个加法器在实际项目中根据速度要求可以选择更优化的算法如Booth编码或Wallace树结构但移位相加法仍是理解乘法器基础原理的最佳起点。

RK3588 MPP硬解码实战：从FFmpeg拉流到QT显示的踩坑与优化记录

RK3588 MPP硬解码实战：从FFmpeg拉流到QT显示的踩坑与优化记录第一次在ArmSoM-W3开发板上尝试四路RTSP流硬解码时，屏幕上的画面让我愣住了——四路视频中有两路出现绿色条纹，另外两路则直接黑屏。这场景让我想起刚入行时前辈的忠告&#xff1a…...

2026/6/11 3:29:57 阅读更多 →

终极3DS Homebrew管理指南：Universal-Updater完整使用教程

终极3DS Homebrew管理指南：Universal-Updater完整使用教程【免费下载链接】Universal-Updater An easy to use app for installing and updating 3DS homebrew 项目地址: https://gitcode.com/gh_mirrors/un/Universal-Updater Universal-Updater是一款专为…...

2026/6/11 3:28:49 阅读更多 →

数据仓库从零搭建：从分层建模到数据治理的工程化落地

数据仓库从零搭建：从分层建模到数据治理的工程化落地一、数据混乱的代价：当"取数"变成一场噩梦数据团队最常听到的需求是"帮我拉一份数据"。听起来简单，但实际执行时往往陷入困境：同一张订单表，业…...

2026/6/11 3:28:46 阅读更多 →

JPEXS Free Flash Decompiler：SWF逆向工程架构解析与技术实践

JPEXS Free Flash Decompiler：SWF逆向工程架构解析与技术实践【免费下载链接】jpexs-decompiler JPEXS Free Flash Decompiler 项目地址: https://gitcode.com/gh_mirrors/jp/jpexs-decompiler JPEXS Free Flash Decompiler是一款基于Java开发的开源SWF文件…...

2026/6/9 22:46:56 阅读更多 →