1. 项目概述与核心挑战在宽带无线通信系统尤其是5G和未来B5G/6G的演进中对发射机的线性度和效率提出了近乎矛盾的双重要求。一方面为了提升频谱效率和传输速率我们广泛采用高阶调制如256QAM、1024QAM和宽带多载波聚合技术这些信号具有高峰均比PAPR特性对功放的非线性极为敏感。另一方面为了降低基站能耗和设备尺寸高效率的射频功率放大器PA如GaN HEMT功放和Doherty架构成为了必然选择但这些功放往往工作在接近饱和区非线性失真严重。更棘手的是在直接变频零中频发射机架构中由于模拟器件的非理想性I/Q调制器会引入幅度和相位的不平衡I/Q Imbalance以及本振泄漏DC Offset。这些损伤与功放的非线性效应在信号链路上耦合、交织形成复杂的复合失真传统仅针对功放的数字预失真DPD技术对此束手无策。我过去在调试一款用于5G微基站的GaN Doherty功放时就深刻体会过这种“组合拳”的威力。单独校准功放非线性后输出频谱的邻道泄漏比ACLR勉强达标但一旦引入实际调制器的I/Q失衡EVM误差矢量幅度指标立刻恶化星座图严重模糊ACLR也再度劣化。当时的解决方案是分步校准先用专用芯片或算法补偿I/Q再对“净化”后的信号做DPD。这种方法不仅流程繁琐、耗时而且忽略了两个失真源之间的相互作用补偿效果有限系统稳定性也差。因此联合补偿IQ失衡与功放非线性的高效数字预失真技术成为了业界攻坚的关键。其核心在于构建一个能够精确描述这个“损伤混合体”的行为模型。本次探讨的“三输入非线性模型”便是在这一背景下从经典的Volterra级数理论出发提出的一种创新且高效的解决方案。它不再将I/Q失衡和功放非线性视为两个独立模块而是通过巧妙的输入信号构造将它们统一在一个模型框架内进行建模和逆补偿为工程师提供了一把更趁手的“手术刀”。2. 三输入非线性模型的设计原理与架构拆解要理解三输入模型的精妙之处我们得先回顾一下传统模型的局限以及Volterra级数这个“万能逼近器”是如何被驯服用于实际工程的。2.1 从传统模型到联合补偿的演进困境早期的DPD技术主要聚焦于功放本身的内存多项式Memory Polynomial, MP或广义记忆多项式Generalized Memory Polynomial, GMP模型。这些模型以基带复信号 (u(n)) 作为输入能够很好地描述功放的AM/AM、AM/PM特性及其记忆效应。然而当发射链路中存在I/Q失衡时实际进入功放的信号已经不是纯净的 (u(n)) 了。I/Q失衡可以建模为 [ x(n) g_I \cdot I(n) j g_Q \cdot Q(n) \epsilon ] 其中(g_I) 和 (g_Q) 是I、Q两路不等的增益(j) 代表90度相位差不理想(\epsilon) 是直流偏移。这导致信号 (x(n)) 与其共轭 (x^*(n)) 之间产生了非对称的非线性关系。传统的联合补偿思路如并行哈默斯坦PH模型或共轭GMP模型尝试在模型输入中同时引入原始信号 (u(n)) 和其共轭 (u^*(n)) 来表征这种非对称性。这确实是一大进步。但我在实际拟合中发现这类模型在处理强记忆效应和宽带信号时为了达到足够的精度往往需要极高的非线性阶数和记忆深度导致模型系数数量爆炸式增长复杂度为 (O(N^2)) 甚至更高。这不仅增加了参数辨识的计算负担更在FPGA上实现实时预失真时面临巨大的资源和功耗挑战。2.2 实值Volterra级数与模型简化契机Volterra级数理论上可以描述任何非线性、有记忆的系统但其庞大的系数数量使其难以直接工程应用。三输入模型的突破口在于利用了射频发射机的一个关键特性许多非线性失真本质上是实值过程在复基带上的投影。功放的非线性本质是对射频包络即信号的幅度的响应。I/Q失衡则是作用于同相I和正交Q这两个实值分量上的增益和相位误差。因此一个很自然的想法是为什么不直接使用信号的三个实值特征作为模型的基础输入呢这三个特征就是同相分量 (I): (I(n) \Re{u(n)})正交分量 (Q): (Q(n) \Im{u(n)})信号幅度 (M): (M(n) |u(n)| \sqrt{I(n)^2 Q(n)^2})基于实值Volterra级数理论我们可以构建一个以 (I(n)), (Q(n)), (M(n)) 为输入的离散时间非线性系统。模型的输出 (y(n)) 可以表示为这些输入及其延迟的交叉项的多项式组合。这种表示方法有一个巨大的优势模型关于参数是线性的。这意味着一旦我们确定了模型的结构即选择了哪些交叉项模型输出就可以写成一组已知基函数由输入信号构成与未知线性系数的加权和。2.3 三输入模型的具体构造与优势具体来说模型输出可以表示为 [ y(n) \sum_{m0}^{M_q} \sum_{p0}^{P} \theta_{p,m}^{(I)} \cdot \Phi_{p,m}^{(I)}(n) \sum_{m0}^{M_q} \sum_{p0}^{P} \theta_{p,m}^{(Q)} \cdot \Phi_{p,m}^{(Q)}(n) \sum_{k1}^{K} \sum_{m0}^{M_n} \theta_{k,m}^{(M)} \cdot \Phi_{k,m}^{(M)}(n) \epsilon ] 其中(\Phi_{p,m}^{(I)}(n)) 和 (\Phi_{p,m}^{(Q)}(n)) 是基于 (I(n-m)) 和 (Q(n-m)) 构造的基函数用于捕获I/Q路径的线性、非线性及记忆效应以及它们之间的交叉调制。例如可能包含 (I(n-m)), (I(n-m)|I(n-m)|^2), (I(n-m)Q(n-m)^2) 等项。(\Phi_{k,m}^{(M)}(n)) 是基于 (M(n-m)) 构造的基函数用于捕获与信号包络相关的非线性失真这是功放非线性的核心特征。例如可能包含 (M(n-m)), (M(n-m)^3), (M(n-m)^5) 等奇次项偶次项通常落在带外。(M_q), (M_n) 分别是针对I/Q分支和幅度分支的记忆深度。(P), (K) 是非线性阶数。(\theta) 是待辨识的线性系数。(\epsilon) 是常数项用于补偿直流偏移。这个架构的精髓在于“解耦”与“融合”解耦通过引入独立的幅度输入 (M(n))模型能够更纯粹、更高效地描述功放对包络的非线性特性无需通过复杂的I/Q交叉项来间接拟合从而降低了描述同等非线性程度所需的阶数。融合I和Q作为独立输入并允许它们之间产生高阶交叉项如 (I^2Q), (IQ^2)这为精确建模I/Q失衡包括频率相关失衡及其与非线性相互作用提供了天然的框架。最终所有基函数构成一个大的矩阵 (\mathbf{\Phi})模型输出为 (\mathbf{y} \mathbf{\Phi} \mathbf{\theta})。参数向量 (\mathbf{\theta}) 可以通过最小二乘法LS直接求解(\mathbf{\theta} (\mathbf{\Phi}^H\mathbf{\Phi})^{-1}\mathbf{\Phi}^H\mathbf{y})。这种线性参数辨识非常稳定、快速是工程实现的巨大优势。实操心得模型阶数与记忆深度的选择在实际项目中(P), (K), (M_q), (M_n) 的选择并非越大越好。我的经验是采用“逐步增加法”首先关闭I/Q失衡仅对功放进行建模。从 (K5, M_n2) 开始观察NMSE归一化均方误差的改善。通常对于GaN功放(K7) 或 (9) 已足够。然后开启I/Q失衡固定上一步的 (K) 和 (M_n)从 (P3, M_q1) 开始增加I/Q分支的阶数和记忆深度。观察NMSE和ACPR的改善当增加阶数/深度带来的性能提升小于0.5 dB时即可停止。过高的阶数不仅增加计算量更容易引入过拟合导致模型在训练集上表现好但在验证集或实际预失真时性能下降。通常对于带宽小于100 MHz的信号(M_q) 和 (M_n) 取2或3即可有效捕获记忆效应。3. 实验验证从仿真到硬件的性能较量论文中的实验部分为我们提供了极具参考价值的对比数据。我们不仅要知道模型“声称”自己好更要看它在“实战”中面对真实功放和复杂信号时的表现。下面我结合自己的工程经验对关键实验进行深度解读。3.1 实验平台搭建与数据采集要点文中使用的平台是行业标准配置主机运行MATLAB/ADS、矢量信号发生器VSG、矢量信号分析仪VSA、待测功放PA及衰减器。这个流程看似标准但有几个细节决定了建模的成败信号生成与下载使用ADS2015设计16QAM或LTE信号是专业做法。这里的关键是采样率的设置。文中16QAM信号带宽50 MHz采样率400 MHz8倍过采样LTE信号带宽30 MHz采样率92.16 MHz。过采样率足够高通常4倍才能避免数字混叠确保采集到的信号能真实反映带外频谱再生。在你自己搭建平台时务必根据信号带宽和功放非线性程度决定频谱扩展宽度来设置足够的采样率。I/Q失衡的模拟通过VSG软件设置幅度和相位失衡来模拟真实调制器缺陷这是一个可重复、可量化的好方法。在早期算法验证阶段我强烈建议采用这种方式而不是直接使用一个有未知缺陷的硬件调制器这能帮你隔离问题。反馈回路同步这是整个数据采集的“生命线”。VSA下变频得到的基带信号 (y(n)) 必须与VSG发出的原始信号 (u(n)) 在时间上精确对齐。文中虽未详述但通常需要使用互相关法寻找时延并进行精细的分数时延补偿。任何同步误差都会直接转化为建模误差导致预失真失效。我的经验是同步后的NMSE至少要比同步前改善10dB以上才认为同步是有效的。3.2 单管GaN Class-F PA的验证分析第一个实验针对带宽2.5-2.8 GHz的GaN Class-F功放使用16QAM信号。论文设置了两个场景Case I: 仅有功放非线性增益压缩2dB。Case II: 功放非线性 I/Q失衡幅度失衡2dB相位失衡3度。表1的NMSE对比数据非常能说明问题模型Case I NMSE (dB)Case II NMSE (dB)说明双输入I/Q模型无交叉项-44.05-30.xx (估计)对纯PA非线性建模能力尚可但无法处理联合失真双输入I/Q模型有交叉项-44.58-32.xx (估计)交叉项对纯PA建模提升微弱印证了其主要用于I/Q失衡并行哈默斯坦(PH)模型~ -49.00~ -42.00传统联合模型性能中等共轭GMP模型-50.38~ -43.50在纯PA非线性Case I中表现最佳所提三输入模型~ -49.00-48.01在联合失真Case II中表现显著最佳深度解读在Case I纯PA非线性下共轭GMP模型略胜一筹。这是因为GMP模型结构本身对功放的非线性有非常强大的描述能力。三输入模型与其性能相当~-49 dB说明其幅度输入分支 (M(n)) 能有效捕捉功放非线性。在Case II联合失真下局面逆转。三输入模型的NMSE达到-48.01 dB比性能次优的模型推测是共轭GMP约-43.5 dB改善了超过4.5 dB。这个提升是巨大的在通信指标中往往意味着ACLR或EVM数dB的改善。这充分证明了三输入模型在融合I/Q失衡与PA非线性建模方面的独特优势。图6的功率谱密度PSD和图8的星座图直观展示了补偿效果。经过三输入模型DPD后带外频谱再生被显著抑制星座点从模糊散乱重新收敛为清晰的正方形网格这对高阶调制解调至关重要。注意事项NMSE与ACPR的工程意义NMSE反映的是整个带宽内模型输出与实测信号的整体误差是一个“面”上的指标。ACPR邻道功率比则更关注紧邻工作频带的特定偏移频率处的泄漏功率是一个“点”上的、且被通信标准严格规定的指标。一个好的模型必须同时优化NMSE和ACPR。有时NMSE改善不大但ACPR改善明显这是因为模型更好地拟合了产生邻道泄漏的关键非线性分量。因此评估时一定要两者结合看。3.3 GaN Doherty PA的进阶挑战验证第二个实验针对更复杂的多管Doherty PADPA并使用峰均比更高的两载波LTE信号。DPA因其负载调制特性其AM/AM、AM/PM曲线呈独特的“S”形记忆效应也更显著。实验增加了Case III在Case II基础上加入了I/Q两路的直流偏移3%和5%。表3的NMSE数据再次巩固了三输入模型的优势在包含直流偏移的Case III中三输入模型取得了-32.17 dB的NMSE相比其他模型有约4 dB的优势。图9展示了三种情况下发射机的AM/AM、AM/PM特性。可以看到I/Q失衡和直流偏移使得特性曲线从一条相对清晰的曲线“发散”成一团云雾这直观地说明了联合补偿的难度。而图12显示经过三输入模型DPD后这团云雾被收敛成了一条笔直的直线线性化效果惊人。表4的ACPR数据是硬指标三输入模型在-30MHz和30MHz偏移处分别实现了21.7 dB和18 dB的抑制。这意味着它将邻道干扰功率降低了超过100倍对于满足严格的频谱发射模板至关重要。这里揭示了一个关键工程点直流偏移的处理。论文中提到当存在本振泄漏LO Leakage时需要在三输入模型的输入矩阵中追加一个全1的向量并对应增加一个常数项系数 (\mu)。这相当于在模型中加入了一个可学习的直流补偿量。这个简单的扩展使得模型能同时补偿增益/相位失衡、非线性以及直流偏移实现了“三合一”的补偿极大地简化了系统校准流程。4. 工程实现考量与复杂度分析再好的算法如果不能高效地实现在FPGA或ASIC上也只是纸上谈兵。三输入模型在工程化方面的优势是其能否落地的关键。4.1 计算复杂度与资源评估模型的计算复杂度主要来自两部分1)前向路径预失真器的计算2)参数辨识的计算。前向路径复杂度这决定了DPD引擎的实时处理能力。三输入模型虽然输入维度变为3但其表达式是多项式的和。每个基函数 (\Phi(n)) 的计算涉及乘法、幂次运算可通过查找表LUT实现和延迟线FIFO。由于模型是线性的预失真输出是各基函数值与对应系数的乘积累加MAC操作。其复杂度与模型系数数量 (N_{coeff}) 成正比。 对于一个典型的配置(P7, K9, M_q3, M_n3)三输入模型的系数数量通常会在100-200个之间。作为对比一个要达到相似性能的、高非线性阶数如11阶的共轭GMP模型其系数数量可能轻松突破300。更少的系数意味着更少的乘法器、小的查找表和更低的功耗这对资源受限的FPGA或追求低功耗的移动终端芯片至关重要。参数辨识复杂度这发生在后台的模型更新过程中。由于模型关于参数线性辨识过程归结为求解最小二乘问题 (\mathbf{\theta} (\mathbf{\Phi}^H\mathbf{\Phi})^{-1}\mathbf{\Phi}^H\mathbf{y})。计算量主要在于构造并求逆矩阵 (\mathbf{\Phi}^H\mathbf{\Phi})尺寸为 (N_{coeff} \times N_{coeff})。系数越少这个矩阵的维度就越小求逆速度越快对处理器的负担越轻模型更新速率也可以更快从而更好地跟踪功放因温度、老化等引起的特性漂移。4.2 FPGA实现策略与优化技巧在FPGA上实现三输入模型DPD我通常采用如下策略模块化设计基函数生成模块并行计算I、Q、M三个通道的延迟线并计算所需的各项基函数如 (I), (I^3), (I|M|^2), (M^3) 等。幂次运算通过预先计算的查找表LUT实现比实时乘法器更节省资源。系数存储模块使用双端口RAM或寄存器存储LS算法更新后的系数。通常采用“乒乓操作”一组用于当前预失真另一组用于后台更新。乘积累加MAC树这是核心计算单元。将基函数值与对应的系数相乘并求和。为了满足高数据吞吐率如用于5G的数百MHz带宽需要设计高度并行的MAC结构或采用流水线技术。精度与动态范围权衡输入信号I, Q和中间基函数需要足够的位宽如16-18位定点来保持精度。系数通常需要更高的精度如24-32位定点来保证辨识和补偿的稳定性。在资源紧张时可以对贡献小的基函数项通过辨识后系数的绝对值大小判断进行剪枝在可接受的性能损失下显著降低复杂度。自适应更新引擎参数辨识算法LS求解可以在嵌入式处理器如FPGA中的软核ARM或外部DSP中实现。采用分块递归最小二乘RLS或最小均方LMS及其变种如NLMS进行在线自适应可以避免大规模矩阵求逆更适合实时性要求高的场景。三输入模型的线性特性使得这些自适应算法可以直接应用。5. 常见问题、排查技巧与未来展望在实际部署中即使理论完美也会遇到各种棘手问题。下面是我在多个项目中总结的一些典型问题及其排查思路。5.1 模型失效典型场景排查表问题现象可能原因排查步骤与解决方案NMSE收敛值差1. 数据同步不准。2. 模型阶数/记忆深度不足。3. 反馈回路存在非线性如衰减器饱和、VSA过载。4. 功放特性漂移过快。1.检查同步绘制互相关函数确保找到的主峰尖锐且时延补偿后NMSE显著改善。2.增加模型复杂度逐步提高 (P, K, M_q, M_n)观察NMSE平台期。3.检查反馈链路确保VSA输入功率在其线性动态范围内衰减器配置正确。4.缩短更新周期增加DPD系数更新频率或引入温度等前馈补偿。带外补偿不足ACPR差1. 模型对强非线性高功率区拟合不好。2. 信号带宽过宽模型记忆深度不够。3. 存在模型未涵盖的失真如相位噪声、谐波。1.聚焦高功率区建模在LS辨识中可以对高功率样本赋予更高权重。2.增加记忆深度特别是 (M_n)以捕获功放的电气记忆效应。3.检查本振相位噪声使用高性能信号源。对于谐波需确保反馈链路有足够的抗混叠滤波。带内补偿过度EVM恶化1. 过拟合。模型过于复杂拟合了噪声。2. 反馈回路存在线性失真频响不平。1.简化模型使用正则化如岭回归或在独立验证集上选择最优复杂度。2.校准反馈链路使用已知纯净信号通过整个反馈回路测量其频率响应并进行数字均衡补偿。DPD后系统不稳定1. 预失真器引入了不稳定的极点在有理函数模型中常见。2. 系数更新算法发散。3. 环路延迟测量错误。1.三输入模型优势其为FIR结构本身无条件稳定。2.稳定自适应算法减小LMS步长或改用更稳定的RLS算法。3.重新精确测量环路延迟。计算资源占用过高1. 模型系数过多。2. 实现架构未优化。1.系数剪枝辨识后剔除绝对值小于阈值的系数及其对应基函数。2.硬件优化使用时间复用共享乘法器优化基函数计算顺序采用压缩存储。5.2 关于模型选择的个人体会经过多个项目的实践我对不同场景下的模型选择有了一些心得对于纯功放线性化如驱动级PA经典的GMP模型仍然是首选它结构成熟工具链支持完善性能足够好。对于包含I/Q调制器的完整发射链路三输入模型显示出巨大优势。它用一个相对简洁的框架解决了联合补偿问题避免了分步校准的繁琐和次优性。对于超宽带应用如400MHz可能需要考虑具有更精细记忆抽头结构的模型变体或者将三输入模型与子带DPD技术结合以应对功放特性随频率的快速变化。在资源极端受限的边缘设备可能需要从三输入模型中衍生出一个高度剪枝的简化版本或者与查找表LUT预失真结合在性能和复杂度之间取得平衡。这项技术的研究远未停止。当前的一个趋势是将这种物理意义明确的模型与神经网络等数据驱动方法结合。例如用三输入模型构造的基函数作为神经网络的第一层特征提取层后面连接几层全连接网络。这样既能保留对射频损伤的物理洞察又能利用神经网络的强大非线性拟合能力或许能应对未来更复杂的宽带、多频段并发场景。另一个方向是探索更高效的系数更新算法实现超低延迟的实时自适应以应对毫米波频段功放特性的快速变化。