一、引言:当 ConvNeXt 的“大核卷积”撞上“内存墙”ConvNeXt 自 2022 年由 Meta AI 团队推出以来,以纯卷积架构在 ImageNet-1K 上达到 87.8% 的 top-1 准确率,彻底刷新了业界对 CNN 能力边界的认知。其核心设计哲学——向 Swin Transformer“取经”并系统性改造传统 CNN——让 ConvNeXt 成为计算机视觉领域最重要的骨干网络之一。2023 年,ConvNeXt V2 更进一步,通过引入 FCMAE 预训练框架和 GRN 归一化层,将 Huge 版本在 ImageNet 上的 top-1 准确率推高至惊人的 88.9%。然而,高精度的代价是高昂的计算成本。根据 ConvNeXt-V2 官方文档,最小的 Atto 版本参数量为 3.7M、计算量为 0.55G FLOPs,而 Tiny 版本参数量达 28.6M、计算量为 4.47G FLOPs。这个体量在服务器端或许毫无压力,但当我们试图将其部署到移动设备、嵌入式终端甚至边缘算力受限的场景时,一个根本性的问题浮出水面:纸面 FLOPs 很低,实际跑起来却很慢。问题的根源在哪?ConvNeXt 广泛采用的 7×7 Depthwise 卷积。虽然理论计算量(FLOPs)不高,但深度可分离卷积天然存在一个致命缺陷——频繁的内存访问(Memory Access)导致 FLOPS(每秒浮点运算次数)极低。换句话说,硬件的大量时间被消耗在等待数据从内存搬运到计算单元上,而非真正执行计算。这就是所谓的“内存墙(Memory Wall)”瓶颈