TPAMI 2026 | DC-SAM 横空出世！融合 SAM 特征，打造图像视频通用上下文分割框架

张

张建站

2026/5/30 20:25:38

10分钟阅读

TPAMI 2026 | DC-SAM 横空出世！融合 SAM 特征，打造图像视频通用上下文分割框架

点击上方“小白学视觉”选择加星标或“置顶” 重磅干货第一时间送达在计算机视觉领域Segment Anything ModelSAM及其升级版SAM2凭借强大的交互式分割能力成为了诸多下游任务的重要基础。但SAM系列模型却存在一个关键短板——无法根据单个实例提示在多张图像或视频中分割同一类别实例也就是缺乏上下文分割能力。近期一篇名为《DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency》的论文针对性地解决了这一问题不仅提出了全新的DC-SAM方法还构建了首个上下文视频对象分割基准IC-VOS让SAM在图像和视频上下文分割任务中实现了性能飞跃。论文信息题目 DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency双一致性SAM通过双重一致性实现图像与视频中的上下文任意分割作者 Mengshi Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang源码https://github.com/zaplm/DC-SAMSAM上下文分割能力缺失视频基准空白SAM虽然在交互式分割中表现顶尖但它没有利用单例提示完成多图像同类别实例分割的能力而这正是上下文分割的核心诉求。此前的少样本分割方法要么泛化能力差要么需要海量标注数据和计算资源更关键的是视频领域还没有专门的上下文分割基准现有视频分割数据集仅关注像素跟踪和时序分割无法评估模型在动态场景下的上下文泛化能力。同时现有基于SAM的方法在提示生成时仅依赖主干网络特征忽视了SAM自身特征的价值导致提示精度不足最终影响分割效果。DC-SAM整体架构双一致性加持打通图像与视频分割DC-SAM的核心设计围绕“双重一致性”展开整体架构如图3所示它以SAM/SAM2为基础通过特征融合、循环一致交叉注意力、双分支提示生成三大核心模块为SAM打造了高质量的提示生成体系还能无缝扩展到视频领域。图3简单来说DC-SAM的工作逻辑分为三步首先融合SAM编码器和主干网络的特征为查询图像生成更精准的先验掩码接着通过循环一致交叉注意力机制过滤模糊、冲突的语义特征优化提示生成过程最后利用双分支策略生成正负样本提示结合SAM提示编码器的正负嵌入实现对掩码的细粒度控制。而针对视频任务DC-SAM只需将图像掩码扩展为掩码管格式结合SAM2的内存模块就能完成视频帧的掩码传播实现上下文视频分割。关键创新点四大设计破解分割难题1. 特征提取与融合兼顾SAM与主干网络优势此前方法仅用ResNet、DINOv2等主干网络提取特征完全忽略SAM编码器的特征价值。DC-SAM则将两者融合先从支持图像和查询图像中提取主干网络特征再结合SAM编码器输出的同尺寸特征通过卷积操作整合让生成的特征既保留主干网络的语义先验又贴合SAM提示编码器的特性大幅提升提示与SAM解码器的匹配度为后续提示生成打下基础。2. 循环一致交叉注意力过滤噪声聚焦关键区域为解决提示生成中语义模糊、冲突的问题DC-SAM设计了循环一致交叉注意力机制如图4所示。该机制先计算查询与支持特征的亲和力图找到彼此最相似的像素点再通过支持掩码的语义信息给不一致的像素点设置负无穷偏置直接过滤掉这些噪声特征。图4这一过程相当于给模型加了“语义过滤器”迫使模型只关注与目标类别高度相关的区域确保生成的提示精准聚焦关键目标而非被背景或无关语义干扰。而且该机制会进行两轮优化还会加入自注意力操作进一步强化提示的全局一致性。3. 双分支提示生成正负样本联动细化掩码边缘SAM本身支持正负提示嵌入但此前方法并未充分利用这一特性。DC-SAM设计了双分支结构正分支用支持图像的前景掩码生成正样本提示负分支则用背景掩码前景掩码取反生成负样本提示再分别叠加SAM的正负嵌入。如图5所示仅用正样本提示时分割掩码边缘粗糙加入负样本提示后边缘精度显著提升。DC-SAM通过这种方式让模型能利用正负提示的相互作用实现对掩码的细粒度控制解决了分割边缘不精准的问题。图54. 首个上下文视频分割基准IC-VOS填补领域空白为评估视频上下文分割能力论文团队构建了IC-VOS基准。该基准从DAVIS、MOSE、LVOS v2等现有视频分割数据集中筛选样本经过手动掩码选择、专家交叉验证等三阶段严格标注最终包含369个视频、99549帧覆盖30个语义类别如表1、图2所示。表1图2IC-VOS要求模型仅通过一张带掩码的支持图像分割视频中同语义类别的所有实例既考验模型的语义迁移能力也能验证动态场景下的分割鲁棒性。数据分布上LVOS v2占比63.7%MOSE占27.9%DAVIS占8.4%类别上人、狗、猫的剪辑数最多风筝、冲浪板等类别虽剪辑少但帧数多形成长尾分布能更全面地测试模型性能。全场景领先性能与泛化能力双优1. 图像分割刷新COCO-20i、PASCAL-5i基准在经典的少样本分割数据集上DC-SAM表现远超现有方法在COCO-20i上达到55.5 mIoU1.4在PASCAL-5i上实现73.0 mIoU1.1。即使对比SegGPT这类依赖大规模数据预训练的模型基于DINOv2-B的DC-SAM也能领先6%充分体现了其数据效率和泛化能力。从视觉效果来看图7DC-SAM能精准分割瓶子、鸟、自行车等复杂物体完整捕捉轮廓细节背景无误分割而其他方法易出现边缘模糊、漏分割等问题。图72. 视频分割IC-VOS基准上大幅领先在全新的IC-VOS基准上DC-SAM取得71.52的JF分数比第二名VRP-SAM高出6.4%。如图8所示面对“摩托车”语义分割任务DC-SAM能准确识别并跟踪摩托车而PFENet会漏分割车轮、误分割人物VRP-SAM也无法区分人与摩托车充分体现了DC-SAM在视频上下文分割中的优势。图83. 消融实验验证核心组件价值消融实验进一步证明了各模块的有效性在PASCAL-5i上以VRP-SAM为基线加入正负分支后性能提升融合SAM特征后进一步优化最终加入循环一致交叉注意力后各折叠的mIoU均达到最优而针对循环一致性模块的消融显示掩码偏置和循环一致性分别带来0.7%的性能提升两者缺一不可。此外当单分支查询数量设为25时模型达到最佳平均性能。4. 跨领域泛化工业、医学场景同样适用为验证鲁棒性DC-SAM还在工业数据集XYZ-IBD无纹理金属物体分割、医学数据集ADAM和RIM-ONE DL视网膜结构分割上测试相比VRP-SAM分别提升29.1%、10.0%、6.2%证明其不仅在通用场景有效还能落地到实际工业、医疗领域。SAM上下文分割的全新范式DC-SAM通过双分支提示生成、循环一致交叉注意力、多源特征融合三大核心设计补齐了SAM在上下文分割中的短板无需大规模重训练就能实现高精度的图像/视频上下文分割同时IC-VOS基准的构建填补了视频上下文分割评估体系的空白。无论是在经典的COCO-20i、PASCAL-5i数据集还是全新的IC-VOS基准甚至跨领域的工业、医学数据集DC-SAM都展现出领先的性能为SAM系列模型在上下文分割任务中的应用提供了全新范式。该论文的源码已开源感兴趣的研究者可以深入探索相信这一方法也能为少样本分割、视频编辑等下游任务带来新的思路。交流群欢迎加入公众号读者群一起和同行交流目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群以后会逐渐细分请扫描下面微信号加群备注”昵称学校/公司研究方向“例如”张三上海交大视觉SLAM“。请按照格式备注否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告否则会请出群谢谢理解~

实时BPM分析器完全指南：浏览器音频节拍检测的终极解决方案

实时BPM分析器完全指南：浏览器音频节拍检测的终极解决方案【免费下载链接】realtime-bpm-analyzer Library using WebAudioAPI to analyse BPM from files, audionodes. Its also able to compute BPM from streams as well as realtime using a microphone. This …...

2026/5/30 20:23:03 阅读更多 →

别再为spacy中文模型zh_core_web_sm安装报错头疼了，这份保姆级下载安装教程帮你搞定

彻底解决spacy中文模型zh_core_web_sm安装难题：从原理到实战的完整指南作为Python自然语言处理领域的瑞士军刀，spacy凭借其工业级性能和简洁API设计赢得了大量开发者的青睐。但当我们需要处理中文文本时，zh_core_web_sm模型的安装过程却常常成…...

2026/5/30 20:21:52 阅读更多 →

告别手动netload！用AutoCAD启动组+LSP脚本实现DLL自动加载（附完整代码）

AutoCAD二次开发：告别手动netload的自动化加载方案每次启动AutoCAD都要重复输入netload命令加载DLL插件？这种低效操作确实令人抓狂。作为CAD二次开发的老手，我完全理解这种重复劳动带来的挫败感。本文将分享一套经过实战验证的自动化加载方案…...

2026/5/30 20:20:49 阅读更多 →

ML模型监控工具：监控和维护机器学习模型的性能

ML模型监控工具：监控和维护机器学习模型的性能一、ML模型监控工具概述 1.1 ML模型监控工具的定义 ML模型监控工具是指用于监控和维护机器学习模型性能的软件工具。它通过收集模型的预测数据、性能指标和数据质量，帮助用户了解模型的状态，及时…...

2026/5/30 6:22:30 阅读更多 →

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略引言在 AI 技术快速发展的今天，越来越多的 AI 工具涌现出来，帮助开发者提高工作效率。但对于许多开发者来说，面对众多的 AI 产品和服务，往往感到困惑：这…...

2026/5/30 17:03:09 阅读更多 →

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-downloader 还在…...

2026/5/29 4:41:15 阅读更多 →

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案【免费下载链接】Bifrost Cross-platform tool for downloading Samsung mobile device firmware. 项目地址: https://gitcode.com/gh_mirrors/sa/Bifrost 还在为三星设备固件下载而烦恼吗&#xff…...

2026/5/29 11:37:03 阅读更多 →