1. 项目概述与核心价值神经形态计算或者说“类脑计算”这几年在芯片设计圈子里热度一直没降下来。大家的目标都很明确怎么把深度神经网络DNN这种计算密集型、内存访问密集型的任务从传统的冯·诺依曼架构的枷锁里解放出来。传统架构里处理器和内存是分开的数据得来回搬运这“内存墙”问题在DNN推理时尤其要命功耗和延迟大头都花在搬权重上了。所以存内计算In-Memory Computing的概念火了。核心思想就是把计算放到数据存储的地方直接在存储单元里完成乘累加MAC操作。这听起来很美但实现起来挑战一大堆。用什么器件存权重怎么保证精度和线性度怎么跟现有的CMOS工艺集成这些都是硬骨头。我最近深入研究了一篇来自三星先进逻辑实验室的经典工作他们提出了一种基于铁电场效应晶体管FeFET的多比特神经形态权重单元设计。这篇论文没有停留在概念层面而是扎扎实实地从器件物理、电路设计一直推到系统级验证和训练协同优化为高性能、低功耗的神经形态推理加速器特别是面向移动SoC集成的场景提供了一个非常具体且有说服力的技术方案。它没有追求不切实际的超高精度或片上训练而是紧扣“推理专用”和“易于集成”这两个务实目标设计了一个简洁、鲁棒且高效的硬件单元。这个方案的核心价值在于它用了一种相当巧妙的“数字存储模拟计算”混合架构。权重以多比特数字形式非易失地存储在FeFET中而实际的MAC运算则通过被FeFET门控的被动电阻网络以模拟方式完成。这样既获得了非易失存储的能效优势又通过被动元件保证了运算的线性度还规避了纯模拟存储器件如忆阻器常见的编程复杂性和非线性问题。对于从事AI加速器、存算一体芯片、先进存储器工艺或者对边缘AI硬件实现感兴趣的工程师和研究者来说这是一个值得掰开揉碎了理解的典型案例。2. 架构设计思路与核心权衡2.1 为什么是“推理专用”和“数字权重”论文开篇就做了一个关键的战略选择聚焦于推理专用Inference-Only的加速器并且使用多比特数字来表示权重。这两点选择是后续所有设计的基石。首先放弃片上训练。虽然片上训练能自适应硬件变异但它需要复杂的反向传播外围电路并且要求权重有很高的精度以容纳训练过程中微小的梯度更新。这对于追求面积和能效的移动SoC来说负担太重。因此论文假设训练在云端完成训练好的权重一次性编程到芯片上芯片只负责高效推理。这大大简化了系统复杂度。其次使用多比特数字权重而不是追求连续的模拟值。论文通过MNIST数据集的仿真证明见图1即使是2比特的权重配合足够大的全连接层也能达到接近模拟高精度权重下的识别准确率。这是一个非常重要的洞察对于很多推理任务超高的权重精度并非必需。使用2-4比特的量化权重能在精度损失可接受的前提下换来硬件设计上的巨大简化。为什么数字权重更友好原因在于编程的确定性和鲁棒性。如果用一个模拟器件比如一个忆阻器来存储一个权重值你需要通过复杂的、迭代的“写入-验证”过程来逼近目标电导值因为器件的响应是非线性的且受工艺波动影响大。而数字权重则简单粗暴每个比特要么是“开”ON要么是“关”OFF。FeFET作为开关理想情况下只存在这两种明确的状态编程目标就是将其可靠地置为其中之一无需精确控制中间态。这极大地降低了对编程电路精度的要求也增强了对工艺波动的免疫力。2.2 核心电路架构被动电阻阵列与FeFET门控论文提出的权重单元架构清晰而优雅其核心是一个稍作修改的电阻交叉阵列。标准的电阻交叉阵列中每个交叉点是一个可变的电阻或电导单元用来存储一个权重值。为了表示正负权重通常使用两个单元一个代表正电导一个代表负电导最后通过差分来得到带符号的输出。本文的改进在于权重单元结构每个多比特权重单元由多个并联的支路构成。每个支路由一个被动电阻和一个与之串联的FeFET开关组成。被动电阻的值是二进制加权的例如 R, R/2, R/4...。FeFET的状态开或关决定了该支路是否接入电路。工作原理在推理模式下所有编程线接地。权重单元就像一个二端器件连接在输入信号线和输出信号线之间。输入电压施加后电流会流经所有处于“开”状态的支路。总电导就是所有“开”支路电导之和。由于电导是二进制加权的所以通过控制不同支路上FeFET的开闭就能实现离散的、多比特的数字权重值。阵列组织正负权重各有一套这样的阵列。此外为每一行权重引入了独立的编程线每个比特一条用于在编程阶段寻址和设置特定行、特定列的FeFET状态。这个设计的精妙之处在于职责分离FeFET只负责“记忆”作为一个理想的开关它利用铁电电容的非易失性极化来存储一个比特信息开或关。它的非理想特性如导通电阻的非线性、阈值电压波动被尽量屏蔽。被动电阻负责“计算”实际的权重值由高精度、高线性的被动电阻决定。只要FeFET的“开”态电阻远小于被动电阻“关”态电阻远大于被动电阻那么整个支路的电导就几乎完全由被动电阻决定从而保证了MAC运算的线性度和精度。2.3 为什么选择FeFET在众多非易失性存储器NVM选项中为什么是FeFET论文提到了Flash等其他选项但FeFET有几个独特优势特别适合这个应用后端集成BEOL Integration论文中的FeFET并非指栅极嵌入铁电材料的“真”FeFET而是一种混合结构底层是标准的CMOS逻辑晶体管在上层金属连线层BEOL制作铁电电容FeCap并将其连接到晶体管的栅极。这种结构与前端CMOS工艺完全兼容不需要改动晶体管本身极大地降低了集成难度和风险。你可以直接在现有的7nm、5nm逻辑工艺上增加几层掩膜来制作FeCap实现NVM功能。性能优势FeFET的开关速度可以很快文献报道可达纳秒级读写耐久性也通常优于Flash。更重要的是其“开”和“关”态的阈值电压窗口ΔVt可以做得比较大这对于区分“0”和“1”状态、提高抗噪声能力至关重要。低功耗操作一旦编程完成FeFET的状态由铁电畴的极化维持不需要任何静态功耗。在推理时FeFET作为开关其栅压由残留极化电荷维持也无需额外的偏置电源。当然FeFET也有挑战主要是需要较高的编程电压论文中约2.5V以及铁电材料本身的可靠性问题。但论文指出由于编程操作在芯片生命周期内可能只发生寥寥几次部署网络权重时而频繁的推理操作在低电压下进行因此高编程电压对可靠性和功耗的总体影响是可控的。3. 关键器件物理与建模深度解析3.1 铁电电容FeCap的迟滞行为与建模FeFET的核心是铁电容。铁电材料的核心特性是极化-电场P-E迟滞回线。当施加的外电场撤去后材料会保留一个剩余极化Pr这就是存储“0”或“1”的物理基础。论文采用了基于Preisach模型的转折点模型来模拟FeCap的准静态迟滞行为。这个模型比简单的双稳态模型更强大因为它能准确描述次回线Minor Loop行为。在实际电路操作中由于电压分压效应后面会讲到FeCap通常不会经历从负饱和到正饱和的完整大回线而是在一个较小的电压范围内沿次回线切换。Preisach模型通过记录电压变化的“转折点”历史可以精确预测这种次回线路径这对于仿真电路的实际工作点至关重要。模型的关键方程描述了极化强度P_FE作为内部状态电压V_int的函数。V_int本身又通过一个二阶延迟微分方程与外加电压V_app相关联。这个延迟模拟了铁电畴翻转的有限速度频率响应。论文校准的翻转频率在~100 MHz量级这意味着编程脉冲需要足够宽10 ns才能保证铁电畴完全翻转实现可靠的编程。注意这个动态模型是理解编程时序的关键。如果编程脉冲太短铁电畴来不及完全翻转会导致编程不充分进而影响FeFET的阈值电压窗口和可靠性。3.2 FeFET的编程与擦除机制这是电路操作中最关键、也最需要仔细理解的部分。FeFET的“编程”和“擦除”本质上是控制铁电电容的极化方向从而在底层FET的栅极上留下一个正或负的残留电压决定FET是开启还是关闭。编程/擦除操作序列全局擦除首先对整个阵列施加擦除脉冲将所有FeCap置为统一的“擦除”态假设对应权重比特“0”。这类似于Flash的“块擦除”。选择性编程然后对于需要设置为“1”的比特通过激活对应的行选择管和列编程线施加一个极性相反的编程脉冲。对于需要保持“0”的比特则保持其选择管关闭编程脉冲无法影响它。电压分压与工作点电路的精妙和挑战都来自于此。FeCap和底层FET的栅电容是串联的。当施加一个编程脉冲V_app时这个电压会按电容比例分配在FeCapV_cap和FET栅电容V_g上V_app V_cap V_g。脉冲结束后V_app归零但铁电极化电荷被“锁”住使得V_cap -V_g。这个残留的V_g就是决定FET状态的栅压。论文通过仿真详细展示了这个动态过程对应原文图7和图8。编程后V_g约为0.5V弱开启擦除后V_g约为-0.25V强关闭。两者之间的差值ΔV_g (~0.75V) 就是可用的阈值电压窗口。这个窗口必须足够大以确保“开”态FET的电阻足够低“关”态FET的漏电流足够小。优化FeCap面积FeCap的面积是一个关键设计参数。面积太小总电荷量少耦合到FET栅极的电压变化小ΔV_g窗口窄。面积太大大部分编程电压降在FeCap上但FET栅压变化也小因为V_g Q/C_gC_g固定Q虽随面积增大但V_cap也增大导致Q的增长被抵消同样导致ΔV_g窗口变窄。因此存在一个最优的FeCap面积使得ΔV_g最大化。论文通过仿真找到了这个最优值对于其特定工艺假设约为1250 nm²。3.3 被动电阻的实现与工艺波动容忍度被动电阻是这个设计的“定海神针”。论文提出直接用高阻值掺杂的FET沟道来实现。通过仿真图10证明可以实现几十kΩ量级、线性度良好的电阻。一个自然的担忧是掺杂随机性RDF会导致每个电阻的阻值有波动约10%的相对标准偏差。这会不会严重破坏神经网络精度论文的仿真给出了令人安心的答案图11。对于一个全连接层由于每个神经元的输入是大量权重的加权和这些随机波动会部分相互抵消。根据中心极限定理求和后的噪声标准差会除以√NN为输入数。因此只要隐藏层足够大几百个神经元10%的权重随机噪声对最终分类准确率的影响微乎其微直到噪声水平超过30%才会出现明显下降。这证明了该设计对前端工艺波动具有内在的鲁棒性。3.4 底层FET的阈值电压选择底层FET的阈值电压Vt选择是一个精细的权衡它被限制在一个相对狭窄的区间内图12下限必须足够低以确保在编程状态下V_g ≈ 0.5VFET有足够的栅过驱动电压Vgs - Vt处于强反型区其导通电阻远小于与之串联的被动电阻。上限必须足够高以确保在擦除状态下V_g ≈ -0.25VFET被可靠地关闭其关态电阻远大于被动电阻。此外还需要考虑输入电压通过FET的寄生电容耦合到栅极引起的V_g扰动特别是关态时Vt必须高于这个扰动电压。论文指出200-300 mV范围的Vt是合适的这在现代CMOS工艺中常提供多种Vt选项是容易实现的。4. 电路性能仿真与系统级验证4.1 权重单元的电气特性完成器件设计和优化后论文对最终的2比特权重单元进行了仿真验证。线性度与动态范围图13展示了四种权重状态00, 01, 10, 11下的I-V特性。可以看到在很宽的输入电压范围内电流与电压呈现出良好的线性关系仅在电流最大时稍有偏离。更重要的是最大电流全开状态与最小电流全关状态之比超过了4个数量级。这个巨大的开关比ON/OFF Ratio对于确保计算精度至关重要尤其是在大型交叉阵列中它能防止微弱的下拉电流被噪声淹没。权重精度分析图14进一步绘制了电导值GI/V。理想情况下四个状态的电导应是0、G0、2G0、3G0。仿真显示小权重值0 G0的精度非常高误差主要来自FET在饱和区时增大的电阻。对于大权重值3G0由于并联的支路中FET电阻的影响叠加误差会增大。但即便如此误差仍在可控范围内。图15量化了这种影响即使FET电阻因工艺波动增加50%对最大电导权重最敏感情况的总电阻影响也只有约15%。而如前所述15%的权重噪声对网络精度影响很小。4.2 系统级精度验证与硬件感知训练电路非理想特性的最终检验标准是神经网络任务的准确率。论文再次使用MNIST数据集并引入了更现实的假设激活值也被二值化。这意味着神经元的输出不再是多比特值而是1或-1或0/1。这极大地简化了层与层之间的信号传递无需高精度ADC/DAC。直接将在浮点精度下训练好的网络权重量化到2比特并套用非理想的硬件模型会导致准确率下降图16中实心点。然而论文提出了一个关键的提升策略硬件感知的正则化Hardware-Aware Regularization。其算法算法1核心思想是在训练过程中不仅使用传统的L2正则化还在每个训练周期或验证阶段将权重通过硬件模型包括量化、非线性和二值化激活进行前向传播来计算损失。这样训练出的网络权重从“出生”就适应了硬件的非理想特性。如图16中虚线所示采用硬件感知练后即使使用非理想权重和二值化激活网络也能达到与理想多比特权重相近的准确率并且准确率不会随着网络规模阵列面积增大而因过拟合下降。这个发现极具工程价值。它意味着我们不需要追求完美的硬件而是可以通过算法-硬件协同设计让软件去适应硬件的约束从而在有限的硬件精度下实现优异的系统性能。4.3 面积-精度权衡与比特数选择论文还探讨了一个实际问题用多少比特的权重最划算1比特二值网络最简单面积最小。但直接量化会导致不可恢复的精度损失尽管论文提到通过硬件感知训练可能弥补。2比特与4比特仿真结果显示在总面积相同的前提下即用更多但更精细的2比特单元与更少但更粗糙的4比特单元对比两者能达到的推理准确率几乎相同。这是因为2比特单元面积更小可以部署更多的单元更大的网络从而弥补了精度上的不足。更高比特4比特由于需要指数级增长的精密电阻比例如1:2:4:8:16...对电阻匹配精度要求极高变得不切实际。此时纯模拟权重可能更有优势但论文认为对于推理任务4比特以上通常没有必要。因此论文的结论是2-4比特的权重单元是当前技术下的最佳选择在面积、精度和设计复杂度之间取得了最佳平衡。5. 设计启示、挑战与未来展望5.1 核心设计启示与实操要点解耦存储与计算这是本设计最精髓的思想。用NVMFeFET做可靠的数字存储用无源元件电阻做高线性度的模拟计算。两者各司其职扬长避短。在设计类似存算一体单元时应优先考虑这种“混合信号”思路避免让一个器件同时承担复杂且相互冲突的职能。为推理优化而非训练明确应用场景能极大简化设计。如果目标是低功耗、低延迟的推理那么放弃复杂的片上训练电路、采用预训练数字量化的策略是明智的。这能显著降低芯片复杂度、功耗和面积。利用数字化的鲁棒性多比特数字表示比模拟值更具抗工艺波动能力。结合硬件感知训练可以有效将器件层面的非理想性在系统层面进行补偿。工艺协同优化DTCO是关键FeFET的性能ΔVt窗口强烈依赖于FeCap与底层FET的协同优化面积、极化强度、编程电压。芯片设计者必须与工艺工程师紧密合作在早期就确定这些关键参数。外围电路同样重要本文重点在权重单元但一个完整的系统还需要灵敏放大器将模拟电流和转换为数字信号、行/列驱动器、编程电压发生器等。这些外围电路的设计特别是应对高编程电压的器件和电平转换电路是实际集成中必须解决的挑战。5.2 潜在挑战与应对思路高编程电压2.5V的编程电压对先进节点如7nm以下的核心器件是压力。解决方案包括使用厚氧I/O器件或专门的高压器件来构建编程驱动器探索具有更低矫顽场Ec的铁电材料以降低编程电压需求。铁电材料的耐久性与保持特性虽然推理芯片编程次数少但铁电材料本身的极化疲劳和保持力仍需在工艺层面得到保证。需要进行严格的可靠性测试和工艺优化。被动电阻的精度与面积片上集成高精度、高阻值、线性度好的电阻会占用面积。需要探索更紧凑的电阻结构如金属线电阻、接触孔电阻等并评估其变异性和温度系数对网络精度的影响。阵列规模与寄生效应当交叉阵列规模很大时连线的电阻和电容IR Drop RC Delay会严重影响信号完整性和计算速度。需要进行仔细的阵列划分、布线优化和仿真验证。5.3 未来可能的演进方向多值FeFET如果FeFET本身能稳定、可控地实现多个中间态多级单元MLC那么就可以用一个器件存储多个比特进一步增加存储密度。但这对铁电材料的控制和读写电路提出了极高要求。更先进的铁电材料如具有更高剩余极化Pr的掺杂HfO2材料可以在相同电压下获得更大的ΔVt窗口从而改善线性度和开关比。与逻辑工艺的深度集成探索将铁电材料直接集成在晶体管栅叠层中的“真”FeFET虽然工艺挑战大但有望获得更优的性能和密度。支持更复杂的操作当前设计主要针对全连接层的向量-矩阵乘法。如何高效支持卷积层涉及数据复用和注意力机制需要更复杂的阵列架构和数据流设计。回看这项研究它没有追逐最前沿的器件噱头而是立足于成熟的工艺模块标准CMOS FET BEOL FeCap通过巧妙的电路架构和系统级协同优化解决了一个非常实际的工程问题。它向我们展示了一条通往实用化神经形态推理硬件的清晰路径不追求绝对的完美而是在可接受的折衷下寻求最简单、最可靠、最易集成的解决方案。这种务实的设计哲学对于任何希望将前沿学术研究转化为实际产品的工程师来说都是最值得借鉴的。