本文教的是方法,也给出几种改进方法,二次创新结构,百变不离其宗,一文带你改进自己模型,科研路上少走弯路。前言本文解析的是 AAAI 2026 录用的核心成果 —— HOGformer 及其核心算子 Attention_DHOGSA。该研究通过“老瓶装新酒”,重新审视了经典的 HOG(方向梯度直方图) 描述子,并将其转化为一种显式的梯度条件先验。DHOGSA(动态 HOG 感知自注意力) 机制通过实时提取输入图像的梯度强度与方向,引导自注意力权重在空间上进行动态分布。实验证明,该模块能使模型在修复过程中精准“感知”退化类型并保护图像边缘,在多项全能修复任务中达到了 SOTA 性能,为计算机视觉中经典算子与现代深度学习架构的结合提供了新的研究思路。理论介绍结构图如下(摘自论文)传统的自注意力机制(Self-Attention)完全依赖数据驱动来学习空间依赖,这在面对雨丝、雪花、雾气等具有明显几何特征的退化时,往往无法精准定位病灶。HOG 判别力:不同退化在梯度方向上有独特分布(如雨条具有方向性,而雾气相对各向同性)。显式引导:通过实时提取 HOG 特征作为“条件(Condition)”,强迫模型关注图像的底层结构(边缘、纹理),从而在修复过程中实现“结构保真”。DHOGSA 核心模块:对特征图进行空间导数运算:幅值与方向:计算像素级的梯度幅值M MM和方向θ \thetaθ。直方图统计:将方向划分为9 99个区间(Bins),统计局部 Patch 内的梯度分布,生成高维 HOG 特征向量。为了兼顾高分辨率图像的处理效率,DHOGSA 采用了通道维度注意力 (Channel-wise Attention):计算效率:注意力图是在通道维度C × C C \times CC×C上生成的,而非空间维度( H W ) × ( H W ) (HW) \times (HW)(HW)×(HW)。这使得复杂度随分辨率线性增长,而非平方增长。特征解耦:结合 HOG 条件,模型在通道维度上动态重塑不同语义特征的响应权重。特征重组与残差还原 (Scatter Merge):还原位置:将经过排序处理后的特征重新映射回其原始的空间位置(Spatial Mapping)。双向并行:局部窗口和全局依赖的双重建模,最后进行特征融合。理论详解可以参考链接:论文地址代码可在这个链接找到:代码地址训练代码参考和下载:手把手教你使用ConvNeXt训练自己数据集和推理,ConvNeXt模型训练(CVPR 2022),一个能挑战 Vision Transformer 的卷积神经网络,含完整代码和数据集文章目录前言理论介绍🐴一、实战细节⚡⚡实验结果画图⚡⚡改进模块代码⚡⚡使用教程☑️步骤1☑️步骤2☑️步骤3🐴二、模型结构分析⚡⚡ 注意机制结构分析⚡⚡ConvNeXt 结构分析☑️CNBlock 结构图⚡⚡二次创新实战☑️第一种改进手法📐模块的传参分析教程☑️第二种改进手法☑️第三种改进手法🐴三、论文常用的评估指标☑️准确率 (Accuracy, ACC)☑️精确率 (Precision)☑️召回率 (Recall)☑️F1分数 (F1 Score)总结🐴一、实战细节⚡⚡实验结果画图画图效果如下,代码可一键运行画图代码:# -*- coding: utf-8 -*-""" @Auth :落花不写码 @File :画图.py @IDE :PyCharm @Motto :学习新思想,争做新青年 """importmatplotlib.pyplotaspltimportpandasaspd