导读———————————————————————————————————————————重建类异常检测方法有一个隐藏的顽固缺陷模型学会了捷径。理想情况下模型应该只重建正常特征使异常区域在重建前后产生差异。但实际上模型可能直接复制输入特征——包括异常部分——导致缺陷被完美重建而无法被检测。TFA-Net的解决方案是引入一张固定的正常模板图像将输入特征向模板特征聚合而非直接重建输入。由于异常特征与正常模板特征的相似度低聚合过程有效地过滤掉了异常信息。在MVTec AD数据集上TFA-Net以98.7%的图像级AU-ROC和98.3%的像素级AU-ROC达到了15个类别的平均最优其中Leather、Tile、Bottle、Hazelnut和Toothbrush五个类别达到100%图像级检测。论文信息_____________________________________________________________________________标题Template-Based Feature Aggregation Network for Industrial Anomaly Detection作者Wei Luo, Haiming Yao, Wenyong Yu机构清华大学精密测量技术与仪器国家重点实验室华中科技大学数字制造装备与技术国家重点实验室状态预印本已投稿Elsevier期刊代码https://github.com/tlov23/TFA-Net一、重建类方法的捷径学习问题_____________________________________________________________________________无监督异常检测的主流思路分为两大类嵌入类方法如PaDiM、PatchCore建立正常特征的记忆库并度量距离重建类方法如自编码器、DFR学习重建正常数据利用重建误差作为异常分数。重建类方法面临一个核心问题捷径学习shortcut learning。模型在训练时只见过正常样本理论上只能学会重建正常模式。但实际上现有特征重建方法存在两个缺陷平凡解问题trivial solution即模型走捷径直接复制输入特征使得异常区域也被完美重建像素级差异无语义在特征空间中输入和重建之间的像素级差异不一定承载语义信息可能产生大量假阳性论文中直观地对比了直接特征重建与模板特征聚合的效果直接重建时异常特征被保留在重建结果中而模板聚合后异常区域被有效抑制。二、TFA-Net的四阶段流水线TFA-Net的整体架构包含四个阶段阶段一多层级融合特征提取使用预训练的Wide-ResNet50作为特征提取器取第1至第4层的特征图。不同层的特征图具有不同的感受野浅层特征包含更多细节但较少语义信息深层特征则相反。将各层特征图统一缩放至相同空间尺寸在通道维度拼接得到维度为1856的多层级融合特征 。阶段二模板特征聚合机制TFAM这是TFA-Net的核心创新。选择一张固定的正常图像作为模板 同样提取融合特征 。TFAM基于Vision TransformerViT的自注意力机制。具体步骤将输入特征和模板特征分别通过投影头转换为patch embedding 和拼接两组embedding送入12层Transformer Block进行自注意力聚合聚合后丢弃输入特征部分仅保留模板特征部分关键机制在自注意力过程中正常输入特征与正常模板特征相似度高能有效聚合高聚合度异常输入特征与正常模板特征相似度低难以聚合低聚合度。因此TFAM通过将输入信息向模板特征聚合有效地过滤了异常信息将原本平凡的特征复制任务转化为有意义的特征聚合任务。阶段三特征细节精炼模块FDRM经过TFAM后模板特征已融合了来自正常输入的信息。但TFAM存在一个边界情况少量异常特征可能因与模板特征在潜空间中的相似性而被部分聚合。FDRM使用8层Transformer Block对TFAM输出进行进一步精炼修复这些残留的异常痕迹生成最终的重建特征图 。阶段四双模式异常分割最终异常分数同时使用欧几里得距离和余弦相似度两种度量的element-wise乘积能同时捕捉特征幅值差异和方向差异提升定位精度。三、MVTec AD与MVTec LOCO AD上的实验结果MVTec AD结果论文Table 1TFA-Net在15个类别上的平均性能AU-ROC即ROC曲线下面积越高越好指标TFA-Net次优方法领先幅度图像级AU-ROC98.7%98.0%Draem0.7%像素级AU-ROC98.3%97.3%多个方法1.0%五个类别达到100%图像级检测Leather、Tile、Bottle、Hazelnut、Toothbrush。在较难的Transistor类别上TFA-Net以99.8%图像级AU-ROC和97.7%像素级AU-ROC领先次优方法2.0%和0.7%。MVTec LOCO AD结果论文Table 2MVTec LOCO AD包含逻辑异常如零件缺失、位置错误和结构异常如表面缺陷检测难度更高。方法逻辑异常 AU-ROC结构异常 AU-ROC平均GCAD86.080.683.3TFA-Net77.285.481.6TFA-Net在结构异常检测上以85.4%领先次优方法PatchCore的82.0%3.4%。在逻辑异常上TFA-Net排名第二77.2%低于专为逻辑异常设计的GCAD86.0%。这说明TFAM的特征聚合机制在处理需要高级语义推理的逻辑异常时仍有提升空间。四、消融实验TFAM为什么有效_____________________________________________________________________________特征提取器的影响论文Table 3特征提取器图像/像素 AU-ROCFPS参数量MobileNet94.5/94.623.4112.86MVGG1997.6/96.618.5140.93MWideResNet5098.7/98.315.3173.57MWideResNet10198.8/98.510.0231.58MWideResNet50在精度和效率之间取得了最优平衡。TFAM的影响移除TFAM后Cable类别的图像级AU-ROC下降6.8%Screw下降5.6%Transistor下降9.6%。这些类别的共同特点是需要检测全局性缺陷如物体缺失说明TFAM学习到的语义丰富的全局信息对此类缺陷的检测至关重要。模板图像选择的鲁棒性在Hazelnut、Screw和Metal Nut三个具有姿态多样性的类别上使用10张不同的正常图像作为模板进行测试。结果显示Hazelnut的最大波动仅0.0/0.09%Image/Pixel AU-ROCScrew为0.9/0.21%Metal Nut为0.6/0.37%。模型性能波动均在1%以内。论文解释虽然不同模板图像在外观上差异较大但经过ViT分割为patch后不同位置的patch之间仍然能建立对应关系——这正是ViT缺乏平移等变性的特点在此场景下的优势。双模式分割的影响论文Table 4分割方式图像/像素 AU-ROC仅欧几里得距离97.7/97.8仅余弦相似度97.8/98.0双模式分割98.7/98.3双模式分割相比仅用欧几里得距离提升了1.0%/0.5%图像/像素相比仅用余弦相似度提升了0.9%/0.3%。五、总结与思考_____________________________________________________________________________TFA-Net通过引入模板特征聚合机制TFAM将重建类异常检测中容易陷入的平凡特征复制任务转化为有意义的跨图像特征聚合任务有效解决了捷径学习问题。配合FDRM精炼和双模式分割在MVTec AD上达到了98.7%/98.3%的图像/像素级AU-ROC。在此基础上有几点值得进一步思考逻辑异常检测的局限性TFA-Net在MVTec LOCO AD的逻辑异常类别上的表现77.2%明显低于结构异常85.4%。逻辑异常需要理解物体间的组合关系如零件是否齐全、位置是否正确这超出了基于特征相似度聚合的能力范围。模板选择的鲁棒性论文消融实验表明使用10张不同正常图像作为模板性能波动均在1%以内Hazelnut仅0.09%像素级波动。论文将此归因于ViT缺乏平移等变性使得不同位置的patch仍能建立对应关系。推理速度与精度的权衡论文Table 3显示WideResNet50作为特征提取器时FPS为15.3切换到MobileNet可提升至23.4 FPS但图像级AU-ROC从98.7%降至94.5%。论文最终选择WideResNet50作为精度与效率的平衡点。