(论文速读)UniConvNet: 意尺度卷积神经网络在保持渐近高斯分布的同时扩展有效接受野
论文题目UniConvNet: Expanding Effective Receptive Field while Maintaining Asymptotically Gaussian Distribution for ConvNets of Any Scale任意尺度卷积神经网络在保持渐近高斯分布的同时扩展有效接受野会议ICCV2025摘要具有大有效感受野(ERF)的卷积神经网络(ConvNets)仍处于早期阶段但受到高参数和FLOPs成本以及中断渐近高斯分布(AGD)提供ERF的限制已显示出良好的有效性。本文提出了一种替代范例:与其仅仅使用非常大的ERF不如通过适当组合较小的内核(如7×7, 9×9, 11×11)来扩展ERF同时保持AGD提供ERF这样更有效和高效。本文介绍了一种三层感受野聚合器并从感受野的角度设计了一层算子作为基本算子。在保持ERF的AGD的前提下通过所提出的模块栈将ERF扩展到现有的大核卷积神经网络的水平。使用这些设计我们提出了一个通用的模型任何规模的ConvNet称为UniConvNet。在ImageNet-1K、COCO2017和ADE20K上进行的大量实验表明UniConvNet在各种视觉识别任务上的表现优于最先进的cnn和ViTs无论是轻量级模型还是大规模模型都具有相当的吞吐量。令人惊讶的是UniConvNet-T在30M参数和5.1G FLOPs下达到了84.2%的ImageNet top-1精度。此外UniConvNet-XL在大数据和大型模型上也显示出了具有竞争力的可扩展性在ImageNet上获得了88.4%的前1准确率。代码和模型可在https://github.com/ai-paperwithcode/UniConvNet上公开获得。UniConvNet在保持渐近高斯分布的同时扩展有效感受野1. 背景与动机卷积神经网络ConvNets在计算机视觉领域有着悠久而辉煌的历史。然而随着 Vision TransformerViT的兴起如何让卷积网络也能建立长程依赖成为了研究热点。一个核心思路是扩大有效感受野Effective Receptive FieldERF——让每个输出像素能看到更大范围的输入区域。1.1 已有工作的两条路线路线一堆叠小核如3×3以 ResNet 为代表的传统方案通过大量堆叠3×3卷积来间接扩大感受野。这类方案的 ERF 遵循渐近高斯分布Asymptotically Gaussian DistributionAGD——越靠近输出像素中心的输入像素影响越大这与人类视觉直觉一致如图1(A)所示。然而其 ERF 范围较小难以捕获全局上下文。路线二直接使用超大卷积核近年来RepLKNet31×31核、SLaK51×51稀疏核、UniRepLKNet 等工作通过重参数化、参数共享或稀疏化技术将卷积核直接放大到极大尺寸ERF 范围显著扩大。但代价是参数量和计算量FLOPs极高破坏了 AGD——ERF 在奇怪位置出现高响应或不同尺度像素的影响趋于均匀见图1(B)(C)。【配图位置图1——ResNet-101、SLaK-T、UniRepLKNet-T、UniConvNet-T 的 ERF 热力图对比展示 AGD 特性与 ERF 范围的差异】可能的意思是A) ResNet-101— 小核堆叠的典型代表热力图呈现出非常标准的同心圆渐变从中心向外颜色均匀变暗。这就是理想的渐近高斯分布AGD离中心越近影响越大离中心越远影响越小过渡自然连续。缺点是亮区范围很小说明感受野范围有限看不远。(B) SLaK-T— 51×51稀疏大核热力图出现了奇怪的十字形或星形亮斑说明某些远离中心的特定位置反而比近处的像素影响更大。这就是AGD被破坏的典型表现——影响分布不符合近大远小的直觉模型在乱看。(C) UniRepLKNet-T— 超大核重参数化热力图的亮区范围非常大感受野很广但整体近乎均匀的灰色没有明显的从中心向外递减的层次感。这意味着远处和近处的像素影响差不多大AGD同样被严重破坏相当于模型看得很远但不知道该重点看哪里。(D) UniConvNet-T— 本文提出的方法热力图呈现出清晰的多层同心圆渐变且亮区范围比ResNet-101大得多。这说明UniConvNet同时做到了两件事感受野足够大能看得远同时保持了良好的AGD越近越重要。论文把这种多层清晰渐变称为more stepped colour area层次越多越分明说明AGD质量越好。1.2 核心问题本文作者提出一个关键问题是否存在一种合适的小核组合方式能在扩大 ERF 的同时保持 ERF 的渐近高斯分布答案是肯定的。作者提出了一种全新范式与其使用极大的 ERF不如通过适当组合较小的卷积核如7×7、9×9、11×11来扩展 ERF 同时保持 AGD这样更高效也更有效。2. 方法详解本文的核心贡献是设计了感受野聚合器Receptive Field AggregatorRFA并以此为基础构建了通用卷积网络UniConvNet。2.1 层操作算子Layer OperatorLOLO 是 RFA 的基本构建单元其设计出发点是直接从感受野视角出发来建模像素的影响分配。每个 LO 有三个不同的输入分支通过两个子模块相互配合放大器AmplifierAmp将输入经过大核K×K深度卷积 GELU 激活后与做逐元素乘法这一操作的效果是在 K×K 感受野范围内每个位置的像素被该位置在中的值所加权放大结果扩展了感受野范围同时放大了感受野内显著像素的影响。判别器DiscriminatorDis将输入经过大核K×K和小核k×kk3深度卷积处理为大感受野引入来自小尺度新像素的影响建立两层判别性AGD结果在大感受野的基础上靠近中心的小尺度像素也保有更强的响应。最终Amp 和 Dis 的输出被拼接得到具有双层 AGD 的输出特征图通道数也相应递增以供后续层使用。【配图位置图3右——Layer Operator 的结构示意图展示 Amp 和 Dis 两个子模块的连接关系】2.2 感受野聚合器RFARFA 将多个 LO 按金字塔方式递归组织其核心设计如下输入沿通道维度被分成N1 个头先进入 LO 1输出通道数从增长到递归进入 LO 2与对应的交互输出通道继续递增……以此类推形成金字塔递增的通道结构大幅降低了参数量和 FLOPs每个头在进入 LO 之前先经过 1×1 卷积投影以增强特征多样性。这种金字塔结构直接对不同尺度的感受野分配判别性影响使得从中心到边缘形成连续的 AGD。【配图位置图3左——RFA 整体结构示意图展示 N1 个头的金字塔通道递增方式】2.3 三层 RFA 的感受野流动针对224×224分辨率的输入图像作者采用 N3 的三层 RFA渐进大核尺寸按公式计算依次为7×7、9×9、11×11小核固定为3×3。感受野的扩展过程如下LO 17×7卷积建立第一层大感受野3×3卷积引入小尺度判别信息形成双层AGDLO 2在LO 1输出的感受野基础上9×9卷积继续扩展再次引入3×3小尺度信息LO 311×11卷积进一步扩展最终形成四层感受野从中心到边缘完整遵循AGD。整个过程类似滚雪球——每一层 LO 都在上一层感受野的基础上进行放大和判别最终在一个轻量级模块内达到与大核网络相当的 ERF 范围同时保持良好的 AGD。【配图位置图4——三层RFA的感受野流动示意图直观展示7×7→9×9→11×11的逐层扩展过程】为什么选7×7、9×9、11×117×7 比3×3、5×5 提供大得多的感受野是扩展 ERF 的有效起点11×11 能在主特征提取阶段Stage 3 的14×14特征图保持合理的覆盖范围padding5 时角落像素最多覆盖特征图的四分之一避免中心像素过度重叠消融实验表明见表7(7,9,11) 是效率与效果的最优配置(5,7,9) 对 ERF 扩展不足(9,11,13) 对深层模型的参数效率较低极大核(27,29,31)则既不高效也不有效。【配图位置表7——核尺寸和层数的消融实验结果对比不同配置下的参数量、FLOPs和Top-1精度】2.4 UniConvNet 整体架构UniConvNet 以 InternImage 为基础骨干将三层 RFA 替换其中的关键卷积操作并采用与 ConvNeXt、InternImage 类似的金字塔架构Stem 块由两个步长为2的3×3卷积 LayerNorm GELU 构成将输入分辨率降低4倍下采样块LayerNorm 步长为2的3×3卷积每阶段将分辨率减半基础块包含三个残差子组件——三层RFA、修改版DCNV3去除softmax归一化、前馈网络FFN完整模型从 UniConvNet-A3.4M参数到 UniConvNet-XL226.7M参数覆盖全尺度需求。【配图位置图5——UniConvNet整体架构图展示四个Stage、Stem、下采样块及基础块的组成以及各变体的通道配置】3. 实验结果3.1 ImageNet-1K 图像分类轻量级模型对比UniConvNet 的轻量级系列在相近参数量和FLOPs下全面超越现有纯CNN和混合ViT模型。以代表性结果为例UniConvNet-N113.1M参数1.88G FLOPs82.2%Top-1超越同量级的UniRepLKNet-N18.3M81.6%在更少参数下获得更高精度UniConvNet-N215.0M参数2.47G FLOPs82.7%超越HorNet-T23.0M83.0%的同时参数仅为其65%UniConvNet-N319.7M参数3.37G FLOPs83.2%与UniRepLKNet-T31.0M并列但参数量仅为其63%。【配图位置表1——轻量级变体在ImageNet验证集上的分类性能对比涵盖ViT和CNN各系列代表模型】大规模模型对比UniConvNet-T30.3M参数5.1G FLOPs84.2%超越 InternImage-T83.5%、FlashInternImage-T83.6%、SLaK-T82.5%在相近参数下领先至少0.6个百分点UniConvNet-S50M参数8.48G FLOPs84.5%超越 FlashInternImage-S84.4%UniConvNet-B97.6M参数15.9G FLOPs85.0%超越 InternImage-B84.9%UniConvNet-L201.8M预训练于ImageNet-22K88.2%与MOAT-3188.0M141.2G FLOPs持平但FLOPs更低UniConvNet-XL226.7M预训练于ImageNet-22K88.4%超越 InternImage-XL88.0%和 FlashInternImage-L88.1%。【配图位置图2——UniConvNet与其他模型的参数量-精度及FLOPs-精度气泡图对比直观展示帕累托前沿优势】【配图位置表2——大规模变体在ImageNet验证集上的分类性能对比】3.2 目标检测与实例分割COCO2017使用 RetinaNet重型检测头和 SSDLite轻型检测头在 COCO val2017 上评估轻量级变体UniConvNet-A在 SSDLite 框架下达到29.5 mAP超越同量级的 MobileViTv1-Small27.7 mAP和 EMO-5M27.8 mAPFLOPs更低1.3G vs. 3.4GUniConvNet-N2在 RetinaNet 框架下达到45.5 mAP超越 Shunted-S45.4 mAP32.1M参数且参数更少26.0M。【配图位置表3——RetinaNet和SSDLite框架下的目标检测结果对比】使用 Mask R-CNN 和 Cascade Mask R-CNN 评估大规模变体UniConvNet-T在 Mask R-CNN 1× 下达到48.2 box AP超越 FlashInternImage-T48.0在 3× 训练下达到50.1 box AP实例分割达到44.5 mask APUniConvNet-L在 Cascade Mask R-CNN 3× 下达到56.6 box AP和48.9 mask AP超越 FlashInternImage-L56.7 box AP48.9 mask AP中的 mask AP持平box AP微低但参数相近254.8M vs. 277M。【配图位置表4——Mask R-CNN和Cascade Mask R-CNN框架下的目标检测与实例分割结果对比】3.3 语义分割ADE20K轻量级模型DeepLabv3 / PSPNetUniConvNet-A在 DeepLabv3 下达到38.2 mIoU超越 EMO-5M37.8 mIoU参数更少7.9M vs. 10.3MUniConvNet-N2达到42.9 mIoU以22.5M参数超越 ResNet-5042.4 mIoU68.2M参数参数量仅为后者的33%。【配图位置表5——DeepLabv3和PSPNet框架下的语义分割结果对比】大规模模型UperNetUniConvNet-T达到50.3 mIoU单尺度超越 FlashInternImage-T49.3和 UniRepLKNet-T48.6参数相近UniConvNet-S达到52.2 mIoU超越 FlashInternImage-S50.6和 MogaNet-L50.9UniConvNet-L达到55.1 mIoU单尺度超越 InternImage-XL55.0368M参数而 UniConvNet-L 仅有234M参数。【配图位置表6——UperNet框架下ADE20K语义分割结果对比】4. 深入分析4.1 为什么 AGD 比 ERF 范围更重要作者在附录 A 中给出了深刻的分析。通过对多组模型的 ERF 可视化图6可以得出以下结论MogaNet-S vs. ConvNeXt-T两者 ERF 范围相近但 MogaNet-S 的 AGD 更好小尺度像素响应更强→ MogaNet-S 性能更优。这说明在 ERF 范围相当时AGD 质量是决定性因素。SLaK-T vs. UniConvNet-T两者 ERF 范围相当但 UniConvNet-T 的 AGD 更好 → UniConvNet-T Top-1精度高出1.7 个百分点。UniRepLKNet-T拥有更大的 ERF但 AGD 严重劣化小尺度像素暗区明显→ 尽管 ERF 更大但受限于高参数和FLOPs综合效率不如 UniConvNet-T。RepLKNet-31B vs. UniConvNet-B前者 ERF 更大但 AGD 较差 → Top-1精度低1.0 个百分点。【配图位置图6——多模型ERF热力图对比UniConvNet-T、MogaNet-S、SLaK-T、ConvNeXt-T、UniRepLKNet-T、ResNet-101、UniConvNet-B、RepLKNet-31B直观展示AGD质量差异】核心结论在 ERF 范围可比的情况下对小尺度像素保持正确的渐近高斯分布比单纯扩大 ERF 范围更重要。4.2 效率分析从各子模块的参数量和FLOPs分布表8可以看出三层 RFA 相比修改版 DCNV3 具有更少或相近的参数和计算量这意味着引入大感受野几乎不带来额外开销。【配图位置表8——UniConvNet各变体中不同子模块的参数量/FLOPs分布】4.3 消融实验模块组合的有效性通过对 UniConvNet-P05.2M参数、N215M和T30M三个规模的消融表9配置UniConvNet-P0 Top-1三层RFA Modified DCNV3完整模型79.1%仅三层RFA78.4%仅 DCNV4FlashInternImage78.5%三层RFA DW 3×378.9%DW 7×7 DW 3×3ConvNeXt风格77.0%仅 DW 3×377.0%几个关键观察三层 RFA 单独使用即可达到与 DCNV4 相近的性能78.4% vs. 78.5%证明其特征感知能力不依赖于传统小核卷积将 Modified DCNV3 替换为 DW 3×3 仅下降 0.2%说明 DCNV3 的作用是锦上添花将三层 RFA 替换为 DW 7×7 性能骤降至77.0%充分证明三层 RFA 设计的有效性在15M和30M规模上这一结论完全一致体现了三层 RFA 的跨尺度泛化能力。【配图位置表9——不同大核/小核卷积组合的消融对比实验】4.4 吞吐量分析在 A100 GPUPyTorch 1.13FP32/FP16上测试推理速度表10UniConvNet-T1480/1825 images/sFP32/FP16相比 InternImage-T1409/1746提升约5%而精度从83.5%提升至84.2%UniConvNet-XL168/228 images/s相比 InternImage-XL125/174提升约34%FP32精度从88.0%提升至88.4%。【配图位置表10——UniConvNet与代表性模型的推理吞吐量对比】5. 总结与展望UniConvNet 提出了一条清晰的设计哲学扩展有效感受野不必依赖极大卷积核通过多层较小核的合理组合同样可以达到甚至超越大核网络的效果同时避免 AGD 的破坏和参数的膨胀。三层RFA的核心贡献在于以7×7、9×9、11×11三种渐进核尺寸构建出四层感受野的连续AGD通过放大器Amp和判别器Dis的协作实现多尺度影响的精确分配金字塔通道递增结构确保参数效率使得轻量到超大规模模型均可受益。从ImageNet分类、COCO检测分割到ADE20K语义分割的全面实验表明UniConvNet 在各规模、各任务上均达到了最先进水平真正实现了任意规模的通用卷积网络这一目标。