点击上方“小白学视觉”选择加星标或“置顶” 重磅干货第一时间送达在计算机视觉领域Segment Anything ModelSAM及其升级版SAM2凭借强大的交互式分割能力成为了诸多下游任务的重要基础。但SAM系列模型却存在一个关键短板——无法根据单个实例提示在多张图像或视频中分割同一类别实例也就是缺乏上下文分割能力。近期一篇名为《DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency》的论文针对性地解决了这一问题不仅提出了全新的DC-SAM方法还构建了首个上下文视频对象分割基准IC-VOS让SAM在图像和视频上下文分割任务中实现了性能飞跃。论文信息题目 DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency双一致性SAM通过双重一致性实现图像与视频中的上下文任意分割作者 Mengshi Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang源码https://github.com/zaplm/DC-SAMSAM上下文分割能力缺失视频基准空白SAM虽然在交互式分割中表现顶尖但它没有利用单例提示完成多图像同类别实例分割的能力而这正是上下文分割的核心诉求。此前的少样本分割方法要么泛化能力差要么需要海量标注数据和计算资源更关键的是视频领域还没有专门的上下文分割基准现有视频分割数据集仅关注像素跟踪和时序分割无法评估模型在动态场景下的上下文泛化能力。同时现有基于SAM的方法在提示生成时仅依赖主干网络特征忽视了SAM自身特征的价值导致提示精度不足最终影响分割效果。DC-SAM整体架构双一致性加持打通图像与视频分割DC-SAM的核心设计围绕“双重一致性”展开整体架构如图3所示它以SAM/SAM2为基础通过特征融合、循环一致交叉注意力、双分支提示生成三大核心模块为SAM打造了高质量的提示生成体系还能无缝扩展到视频领域。图3简单来说DC-SAM的工作逻辑分为三步首先融合SAM编码器和主干网络的特征为查询图像生成更精准的先验掩码接着通过循环一致交叉注意力机制过滤模糊、冲突的语义特征优化提示生成过程最后利用双分支策略生成正负样本提示结合SAM提示编码器的正负嵌入实现对掩码的细粒度控制。而针对视频任务DC-SAM只需将图像掩码扩展为掩码管格式结合SAM2的内存模块就能完成视频帧的掩码传播实现上下文视频分割。关键创新点四大设计破解分割难题1. 特征提取与融合兼顾SAM与主干网络优势此前方法仅用ResNet、DINOv2等主干网络提取特征完全忽略SAM编码器的特征价值。DC-SAM则将两者融合先从支持图像和查询图像中提取主干网络特征再结合SAM编码器输出的同尺寸特征通过卷积操作整合让生成的特征既保留主干网络的语义先验又贴合SAM提示编码器的特性大幅提升提示与SAM解码器的匹配度为后续提示生成打下基础。2. 循环一致交叉注意力过滤噪声聚焦关键区域为解决提示生成中语义模糊、冲突的问题DC-SAM设计了循环一致交叉注意力机制如图4所示。该机制先计算查询与支持特征的亲和力图找到彼此最相似的像素点再通过支持掩码的语义信息给不一致的像素点设置负无穷偏置直接过滤掉这些噪声特征。图4这一过程相当于给模型加了“语义过滤器”迫使模型只关注与目标类别高度相关的区域确保生成的提示精准聚焦关键目标而非被背景或无关语义干扰。而且该机制会进行两轮优化还会加入自注意力操作进一步强化提示的全局一致性。3. 双分支提示生成正负样本联动细化掩码边缘SAM本身支持正负提示嵌入但此前方法并未充分利用这一特性。DC-SAM设计了双分支结构正分支用支持图像的前景掩码生成正样本提示负分支则用背景掩码前景掩码取反生成负样本提示再分别叠加SAM的正负嵌入。如图5所示仅用正样本提示时分割掩码边缘粗糙加入负样本提示后边缘精度显著提升。DC-SAM通过这种方式让模型能利用正负提示的相互作用实现对掩码的细粒度控制解决了分割边缘不精准的问题。图54. 首个上下文视频分割基准IC-VOS填补领域空白为评估视频上下文分割能力论文团队构建了IC-VOS基准。该基准从DAVIS、MOSE、LVOS v2等现有视频分割数据集中筛选样本经过手动掩码选择、专家交叉验证等三阶段严格标注最终包含369个视频、99549帧覆盖30个语义类别如表1、图2所示。表1图2IC-VOS要求模型仅通过一张带掩码的支持图像分割视频中同语义类别的所有实例既考验模型的语义迁移能力也能验证动态场景下的分割鲁棒性。数据分布上LVOS v2占比63.7%MOSE占27.9%DAVIS占8.4%类别上人、狗、猫的剪辑数最多风筝、冲浪板等类别虽剪辑少但帧数多形成长尾分布能更全面地测试模型性能。全场景领先性能与泛化能力双优1. 图像分割刷新COCO-20i、PASCAL-5i基准在经典的少样本分割数据集上DC-SAM表现远超现有方法在COCO-20i上达到55.5 mIoU1.4在PASCAL-5i上实现73.0 mIoU1.1。即使对比SegGPT这类依赖大规模数据预训练的模型基于DINOv2-B的DC-SAM也能领先6%充分体现了其数据效率和泛化能力。从视觉效果来看图7DC-SAM能精准分割瓶子、鸟、自行车等复杂物体完整捕捉轮廓细节背景无误分割而其他方法易出现边缘模糊、漏分割等问题。图72. 视频分割IC-VOS基准上大幅领先在全新的IC-VOS基准上DC-SAM取得71.52的JF分数比第二名VRP-SAM高出6.4%。如图8所示面对“摩托车”语义分割任务DC-SAM能准确识别并跟踪摩托车而PFENet会漏分割车轮、误分割人物VRP-SAM也无法区分人与摩托车充分体现了DC-SAM在视频上下文分割中的优势。图83. 消融实验验证核心组件价值消融实验进一步证明了各模块的有效性在PASCAL-5i上以VRP-SAM为基线加入正负分支后性能提升融合SAM特征后进一步优化最终加入循环一致交叉注意力后各折叠的mIoU均达到最优而针对循环一致性模块的消融显示掩码偏置和循环一致性分别带来0.7%的性能提升两者缺一不可。此外当单分支查询数量设为25时模型达到最佳平均性能。4. 跨领域泛化工业、医学场景同样适用为验证鲁棒性DC-SAM还在工业数据集XYZ-IBD无纹理金属物体分割、医学数据集ADAM和RIM-ONE DL视网膜结构分割上测试相比VRP-SAM分别提升29.1%、10.0%、6.2%证明其不仅在通用场景有效还能落地到实际工业、医疗领域。SAM上下文分割的全新范式DC-SAM通过双分支提示生成、循环一致交叉注意力、多源特征融合三大核心设计补齐了SAM在上下文分割中的短板无需大规模重训练就能实现高精度的图像/视频上下文分割同时IC-VOS基准的构建填补了视频上下文分割评估体系的空白。无论是在经典的COCO-20i、PASCAL-5i数据集还是全新的IC-VOS基准甚至跨领域的工业、医学数据集DC-SAM都展现出领先的性能为SAM系列模型在上下文分割任务中的应用提供了全新范式。该论文的源码已开源感兴趣的研究者可以深入探索相信这一方法也能为少样本分割、视频编辑等下游任务带来新的思路。交流群欢迎加入公众号读者群一起和同行交流目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群以后会逐渐细分请扫描下面微信号加群备注”昵称学校/公司研究方向“例如”张三 上海交大 视觉SLAM“。请按照格式备注否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告否则会请出群谢谢理解~