一、研究背景与问题当前多模态大语言模型MLLMs在基于RGB图像的视觉感知与推理任务上表现出色但在面对实际应用中常见的视觉退化如夜间、雾天、运动模糊等时其性能显著下降。这是因为RGB图像依赖于可见光容易受到光照不足、天气恶劣等因素的影响。红外IR成像在黑暗、雾天等条件下具有天然的鲁棒性但其与RGB的融合在MLLMs中尚未得到充分探索。现有方法要么仅使用单一模态RGB或IR要么缺乏有效的融合机制和高质量的数据集支持。二、研究目标本文旨在开发一种能够同时利用RGB和红外图像的多模态大语言模型以在视觉退化条件下实现鲁棒的视觉感知与推理。具体目标包括设计高效的RGB-IR融合模块构建适用于指令微调和评估的IR-RGB数据集验证所提出方法在多种退化条件下的性能优势。三、主要贡献1. 提出DualVision融合模块一种轻量级的RGB-IR融合模块采用多尺度局部交叉注意力机制。每个RGB补丁令牌仅关注其空间邻域内的IR令牌保证空间对齐同时显著降低计算开销。与传统的令牌拼接相比计算量减少约75%从O(4N²)降至O(N²)。支持与现有MLLMs如LLaVA 1.5无缝集成仅增加约0.7%的参数量和0.6%的TFLOPs。2. 构建两个新数据集DV-204K约25K个对齐的IR-RGB图像对包含约204K个模态感知的问答对用于指令微调。每个QA对标注了依赖的模态RGB或IR。DV-500500个IR-RGB图像对每个图像对配有一个需要跨模态推理的二元问答对用于评估。RGB图像被施加三种退化模糊、黑暗、雾每种四个严重级别共13种评估条件。3. 提出智能体标注框架自动为IR图像生成高质量描述。该框架通过LLM迭代生成候选描述并由IR-CLIP模型提供对比反馈最终由更强LLM综合选出最优描述。解决了IR图像缺乏大规模语言标注的问题避免了依赖RGB描述合成IR描述带来的偏差。4. 提出退化感知训练策略在训练过程中以一定概率对RGB图像施加随机退化强制模型在RGB不可靠时更多依赖IR特征从而提升鲁棒性。四、方法与技术细节模型架构使用预训练的CLIP ViT-L/14作为共享的视觉编码器分别提取RGB和IR的补丁令牌。DualVision模块通过多尺度局部交叉注意力半径r1,2,3逐步融合两种模态的信息。融合后的令牌通过线性投影输入LLMLLaVA 1.5-7BLLM部分仅通过LoRA进行微调。训练在DV-204K上训练2个周期使用8×A100 GPU约1小时完成。评估在DV-500上使用精确匹配准确率比较模型在不同退化类型和严重程度下的表现。五、实验结果与消融研究1. 模态对比IR-only模型在退化条件下表现平稳但整体准确率低RGB-only模型在干净条件下表现好但随着退化加剧性能急剧下降RGBIR融合模型在所有退化条件下均表现最佳且与RGB-only的差距随退化加剧而扩大。2. 融合方法对比与令牌加法、自适应加法、拼接等方法相比DualVision在12种退化设置中的11种上取得最优性能尤其在严重退化下优势明显。3. 注意力机制消融多尺度局部交叉注意力r1,2,3在退化条件下显著优于全局交叉注意力和固定半径局部注意力。4. 退化感知训练消融退化感知训练在所有退化类型上均带来显著提升如严重模糊下准确率提升6.47%严重黑暗和严重雾下均提升4.81%。5. 计算效率DualVision在几乎不增加参数量和计算量的前提下实现了显著的鲁棒性提升。六、研究意义与局限性意义首次系统性地将RGB与红外融合引入MLLMs显著提升了模型在视觉退化条件下的鲁棒性。提供了高质量的数据集和可复现的代码为后续IR-RGB多模态研究奠定了基础。提出的轻量级融合模块可广泛应用于现有MLLMs具有良好的通用性。局限性假设红外图像在退化条件下完全鲁棒实际中IR也可能受到极端天气或传感器噪声影响。数据集中的退化是合成生成的可能与真实场景存在差异。模型仅在LLaVA架构上验证未在更多MLLM架构上测试。论文提出的DualVision模型通过高效的多尺度局部交叉注意力机制成功实现了RGB与红外图像的深度融合在多种视觉退化条件下显著提升了MLLMs的鲁棒性。配合新构建的DV-204K和DV-500数据集该工作为开发更可靠、更适用于真实复杂环境的视觉语言模型提供了重要的技术路径和数据基础。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示官方项目主页地址在这里如下所示图 1. 当 RGB 图像的可见度下降时例如在夜晚多模态大语言模型MLLMs难以“看见并进行推理”限制了其在自动驾驶等许多实际应用中的可靠性。通过用红外数据补充 RGBDualVision 实现了鲁棒的视觉感知和推理同时与朴素融合相比计算量减少了约 75%。摘要多模态大语言模型MLLMs在使用 RGB 图像进行视觉感知和推理任务方面取得了令人印象深刻的性能但在常见的图像质量下降如雾、模糊或弱光条件下仍然很脆弱。红外IR成像作为 RGB 的一个成熟补充在这些条件下具有固有的鲁棒性但其在 MLLMs 中的整合仍未得到充分探索。为了填补这一空白我们提出了 DualVision一个轻量级的融合模块通过基于补丁的局部交叉注意力高效地将 IR-RGB 信息整合到 MLLMs 中。为了支持训练和评估并促进未来的研究我们还引入了 DV-204K 数据集该数据集包含约 25K 个公开可用的对齐 IR-RGB 图像对带有 204K 个特定于模态的问答QA标注以及 DV-500 基准该基准包含 500 个 IR-RGB 图像对和 500 个 QA 对专为评估跨模态推理而设计。利用这些数据集我们对开源和闭源 MLLMs 进行了基准测试并证明 DualVision 在各种视觉退化条件下都具有强大的实证性能。1. 引言文本[[92, 853, 479, 898], [517, 441, 904, 561]]多模态大语言模型MLLMs[42] 代表了一类日益重要的视觉语言模型VLMs它们通过大语言模型LLMs连接视觉和文本数据。MLLMs 在许多视觉识别任务如目标识别、视觉定位和视觉问答中取得了强劲的性能从而在机器人技术 [15]、自动驾驶 [7] 和数字健康 [2] 等领域得到广泛应用。然而大多数现有的 MLLMs 完全依赖 RGB 图像作为其视觉输入这些图像主要来自以光照良好的自然场景为主的大规模网络数据集。尽管 RGB 图像提供了丰富的颜色和纹理信息并在标准基准测试中推动了显著的泛化能力但它暴露了一个关键的弱点当输入受到不利视觉条件影响时其可靠性会急剧下降 [35]。这种脆弱性源于 RGB 对可见光的依赖及其对光学畸变的敏感性。常见的例子包括弱光环境、运动或散焦引起的模糊以及雨或雾等非理想天气。这些退化并非罕见的异常而是实际部署中经常出现的现实情况特别是在交通、监控和健康等鲁棒性至关重要的领域。例如自动驾驶汽车必须在夜间和恶劣天气下保持稳健的感知而基于家庭的健康监测系统必须在光线不足和运动模糊的情况下有效运行。红外IR成像提供了一个有价值的补充通过捕获可见光谱之外的电磁辐射IR 可以在 RGB 图像面临挑战的黑暗、雾和其他环境中保持有效 [10, 29]。然而IR 图像缺乏 RGB 在有利条件下捕获的细粒度外观细节和语义丰富性。在有利条件下IR 图像缺乏 RGB 捕获的细粒度外观细节和语义丰富性。融合 RGB 和 IR 信号利用它们的互补优势为更鲁棒的视觉感知和推理提供了一条有前景的途径。这种融合在传统的视觉任务如识别、检测和分割[40, 41, 43] 中以及作为通过互补感知减轻退化的策略 [28, 33] 中已经得到了广泛探索。然而将其整合到 MLLMs 中特别是在克服 RGB 在退化视觉条件下的局限性方面至今仍未得到充分探索。开发能够共同理解 RGB 和 IR 数据的 MLLMs 面临三个关键挑战。首先没有原则性的融合机制设计能够在保持 RGB 和 IR 模态之间空间对齐的同时为 MLLMs 自适应地优先处理信息丰富的信号。其次缺乏大规模、语义丰富的数据集阻碍了 IR-RGB 感知的进展。现有数据集通常是为检测或分割而开发的范围狭窄缺乏语言标注并且与推动 MLLMs 近期进展的指令微调范式不一致。第三缺乏用于视觉语言任务的标准 IR-RGB 基准导致评估不一致特别是在视觉退化条件下使得很难在不同视觉条件下严格评估鲁棒性。在本文中我们解决了开发用于鲁棒视觉推理的 IR-RGB MLLMs 的关键挑战。如图 1 所示我们提出了 DualVision一种轻量级融合方法利用多尺度局部交叉注意力在对齐的 IR 和 RGB 令牌之间选择性路由信息。我们的设计通过在不同融合层级采用逐渐扩大的局部注意力半径利用了视觉数据固有的空间结构。这种分层方法能够在精细尺度上实现精确的局部对应同时在较粗糙尺度上捕捉更广泛的上下文关系。其结果是一个统一的 IR-RGB 表示避免了朴素拼接的二次开销而局部交叉注意力机制提供了归纳偏置加强了跨模态对齐特别是在 RGB 条件退化的情况下。作为我们方法的补充我们引入了 DV-204K 和 DV-500这是一个新的数据集套件旨在促进 MLLMs 的指令微调和在视觉退化下的鲁棒性系统评估。我们的数据集提供了多样化、良好对齐的 IR-RGB 图像对以及模态感知的问答对允许研究通用推理和特定于退化的性能。我们的贡献总结如下我们的工作是首批开发整合 RGB 和 IR 模态的 MLLMs 之一用于在视觉退化例如模糊、弱光和雾下进行鲁棒视觉推理。我们引入了 DualVision一个轻量级的 IR-RGB 融合模块对退化具有增强的鲁棒性同时保持与现有 MLLMs 的兼容性。为了支持 IR-RGB MLLMs 的训练和评估我们创建并发布了两个数据集1DV-204K一个包含约 25K 个对齐的 IR-RGB 图像对的数据集带有约 204K 个专为指令微调设计的模态感知问答标注2DV-500一个精心策划的评估基准包含 500 个 IR-RGB 图像对和 500 个相关的 QA 对。利用我们的数据集并通过大量实验我们展示了 DUALVISION 在各种退化下的强大实证结果。2. 相关工作VLLMs 与 MLLMs。现代 VLLMs 通过对比和生成预训练来对齐视觉和文本模态。CLIP [27] 开创了大规模对比学习实现了开放词汇识别。最近的工作包括 ImageBind [9] 和 LanguageBind [44]将此范式扩展到了其他模态包括 IR、深度和音频。然而这些工作侧重于广泛的模态绑定 [9, 44]而不是更复杂的推理。较新的 MLLMs如 LLaVA [18]、BLIP-2 [17] 和 Flamingo [1]将视觉编码器与 LLMs 集成以支持开放式的视觉推理。指令微调进一步改善了与人类意图的对齐。InstructBLIP [8]、MiniGPT-4 [45] 和 LLaVA-1.5 [19] 证明精心策划的指令数据集可以增强推理和零样本泛化能力。虽然大多数 MLLMs 仅依赖 RGB 图像但最近的一些工作包括 IR-LLaVA [14] 和 IRGPT [6]已经开始探索基于 IR 的 MLLMs。然而这些方法仅处理 IR 输入并丢弃 RGB忽视了两种模态的互补感知能力。相比之下我们旨在开发充分利用跨模态协同作用进行鲁棒视觉推理的 IR-RGB MLLMs。MLLMs 中的多模态融合。将视觉模型扩展到 RGB 之外需要有效融合互补模态。为了整合多种模态最近的 MLLMs 利用了通用架构例如 Transformer [36]的灵活性。在这些模型中每个模态的信号首先使用特定于模态的编码器进行标记化然后将生成的令牌交错并传递给 Transformer其中自注意力机制执行多模态融合 [24]。然而自注意力的计算量与令牌数量的平方成正比 [36]因此使得基于朴素拼接的多模态融合计算成本高昂。高效的变体如局部或稀疏注意力可以降低成本但往往会削弱跨模态对齐。开创性工作如 Swin Transformer [20]通过窗口自注意力缓解了这个问题尽管它仍然是模态内的。像 SwinFusion [22] 这样的扩展实现了用于重建任务的 IR-RGB 融合但其计算量大且仅限于低级视觉。图 2. DUALVISION 概览。(a) 展示了 DUALVISION 如何集成到 MLLM 中以融合 RGB 和 IR 图像令牌进行鲁棒视觉推理。(b) 说明了多尺度局部交叉注意力模块其中 RGB 令牌作为查询queriesIR 令牌作为键keys和值values。(c) 可视化了执行局部交叉注意力的空间对齐的 RGB-IR 令牌网格。最近的多模态系统探索了轻量级和灵活的融合设计。PandaGPT [31] 对视觉和文本令牌执行逐元素相加以实现紧凑融合而我们之前的工作 [21] 侧重于视频 LLMs并采用交叉注意力块来整合额外的模态例如音频或深度而无需重新训练基础架构从而实现可扩展的多模态集成。对视觉失真的鲁棒性。[11] 系统地记录了视觉系统对常见图像失真的脆弱性他们引入了 ImageNet-C 基准包含 4 个类别的 19 种失真类型噪声、模糊、天气和数字失真。Usama 等人 [35] 将此分析扩展到 VLMs揭示了不同任务中的脆弱性模式。为了解决这些脆弱性先前的工作主要沿着两个方向进行退化感知处理和输入恢复。质量感知网络 [38] 自适应地提取特征以估计退化程度并在推理过程中利用该信息而基于恢复的方法 [32] 试图在推理前重建清晰的输入。虽然这些方法对单模态视觉有效但它们增加了推理成本并且未能利用互补感知。用于鲁棒感知的 IR-RGB。跨模态感知通过结合互补模态为提高鲁棒性提供了一种有前景的方法。IR-RGB 融合已被证明在目标检测 [39] 和语义分割 [40] 中有效尤其是在自动驾驶 [5] 中热成像可以弥补 RGB 在弱光条件下的局限性。然而这一成功尚未转化到 MLLMs 领域其中的难点不仅在于感知还在于跨模态推理和基础定位。一个关键障碍是缺乏合适的数据集。现有的视觉语言基准仅依赖 RGB 数据而鲁棒性数据集 [11, 35] 仅在单模态内测试失真。尽管存在用于检测和分割的 IR-RGB 数据集 [13, 30]但缺乏带有问答对的 IR-RGB 数据集而问答对对于多模态推理评估是必需的。为了弥补这些差距我们提出了 DUALVISION一个为 MLLMs 设计的有效且高效的 IR-RGB 融合模块。我们还创建了新的数据集用于在挑战性条件下训练和评估 IR-RGB 推理。3. DUALVISION 的设计DUALVISION如图 2 所示提出了一个为 MLLMs 设计的轻量级 RGB-IR 融合模块。DUALVISION 不将 IR 和 RGB 的令牌交错而是执行多尺度局部交叉注意力允许每个 RGB 补丁令牌仅关注空间上对应的 IR 区域。DUALVISION 在相关的 IR 线索处注入它们计算开销低并且与许多现有的 MLLMs 保持兼容。表 1. 计算成本和参数量DUALVision 引入了极少的额外参数和计算成本同时保持了有竞争力的性能。指标基础模型DUALVISION参数量 (B)~70.05 (0.7%)TFLOPs9.240.06 (0.6%)4. DV-204K 和 DV-500 数据集为了训练和评估 DUALVISION我们进一步引入了 DV-204K 和 DV-500这两个全面的资源用于推进红外和 RGB 图像的多模态理解。DV-204K 是一个指令微调数据集包含 IR-RGB 图像对和细粒度的问答标注而 DV-500 是一个精选的基准集用于评估在受控退化下的特定模态推理和鲁棒性。重要的是DV-204K 是使用智能体agentic标注框架自动创建的。4.1. 用于 IR-RGB 标注的智能体框架构建 DUALVISION 需要一种方法来生成与 IR-RGB 图像对相关的丰富的、基于模态的标注。这些文本标注必须准确反映 IR-RGB 感知的独特特性。一个核心障碍是与 RGB 领域此类数据集丰富不同IR 图像缺乏大规模的图像描述和 QA 资源。现有的努力 [14] 通常通过从 RGB 图像合成 IR 数据并启发式地调整 RGB 描述来规避这一限制。然而这种策略依赖于想象的熱表现而不是真实的测量值导致标注可能错误地呈现了 IR 特有的线索例如温度梯度、发射率模式和基于热量的对比度。这图 3. RGB、IR 描述和 QA 对。我们展示了配对的 RGB-IR 图像示例以及它们特定于模态的描述和从这些描述中生成的相应问答对。RGB 描述包含更丰富的场景细节如光照、服装和背景而 IR 描述则反映高层次信息如人物存在和整体场景类型。用于图像描述的智能体框架。为了解决这一差距并受 [3] 的启发我们引入了一个模态感知的智能体标注框架其中 LLMs 作为智能体在预训练对比模型的监督下迭代生成和细化标注。关键在于与先前重新利用 RGB 描述的工作不同我们的方法直接操作于真实的 IR 图像确保标注反映特定模态的内容。该流程在补充材料中说明分为三个阶段候选生成一个 LLM (Claude Sonnet 3.5 v2 [34]) 基于最少的输入线索或可用的目标检测标签生成一组多样的候选描述。对比细化一个特定模态的对比模型 (IR LanguageBind [44]) 评估候选文本与 IR 图像的对齐程度并分配相似度分数。这些分数引导 LLM 在闭环过程中进行多轮在我们的案例中为 9 轮迭代细化逐步提高准确性和相关性。最终选择最后细化的候选描述及其对比分数由一个更强大的 LLM (Claude Opus) 综合成一个最能捕捉 IR 输入图像语义的最终描述。为了在性能和计算之间取得良好的平衡我们在多迭代细化循环中使用效率更高的 Claude Sonnet并保留 Claude Opus 用于单次最终推理。凭经验这种配置提供了强大的准确性-效率权衡。使用此框架我们自动为 LLVIP [13] 和 HDRT [26] 中的约 25K 张 IR 图像生成了描述。IR 描述一个有人存在的步行化城市区域可能是购物区或公共广场指标分数数量百分比准确性非常好873 (51.1%)好609 (35.6%)一般164 (9.6%)差64 (3.7%)细节非常好2 (0.1%)好807 (47.2%)一般807 (47.2%)差94 (5.5%)表 2. IR 描述的质量使用 LLM 作为评判者的协议进行评估将 IR 描述与配对图像中的参考 RGB 描述进行比较。大多数 IR 描述在准确性方面得分“好”或更高而描述性细节得分较低这与红外图像中视觉线索减少的情况一致。评估生成描述的质量。我们进一步评估了来自我们智能体框架的描述质量。由于缺乏红外图像的基准真值基准直接评估 IR 描述具有挑战性。为了解决这个问题我们对一个约 1700 张配对的 IR-RGB 图像的随机子集应用了 LLM 作为评判者的评估。这是通过以下步骤实现的。首先利用现代 MLLMs 强大的 RGB 图像描述能力生成高质量的 RGB 参考描述使用 Claude Sonnet 3.5v2。其次一个评判 LLMSonnet 3.5v2 的另一个实例根据这些参考对相应的 IR 描述进行评分同时被指示考虑特定模态的可见性差异。每个 IR 描述在两个维度上被评分准确性对 IR 可见内容的忠实度和细节描述的完整性。如表 2 所总结IR 描述显示出强大的整体质量。大多数 (86.7%) 在准确性方面获得了“好”或“非常好”的评级表明它们可靠地捕捉了 IR 场景内容。大约一半的描述在细节方面获得了类似的评级因为 IR 图像本质上提供的信息比 RGB 更粗略。这些结果证实我们的框架直接从 IR 图像生成了信息丰富且忠实的 IR 描述。从描述到 QA 对。最后我们使用 LLM (Claude Sonnet 3.5 v2) 将每个描述转换为 2-4 个 QA 对。每个 QA 对都标记了提供关键视觉证据的模态IR 或 RGB从而实现模态感知的监督。RGB 问题针对细粒度的外观线索例如“汽车是什么颜色的”而 IR 问题则关注在红外中可靠可见的属性如目标数量或粗略的场景布局例如“可见有多少人”。图 3 展示了 IR-RGB 图像、其描述和转换后的 QA 对的示例。4.2. 用于指令微调的 DV-204K我们将标注流程应用于来自 HDRT 数据集 [26] 的约 9.5K 个对齐的 IR-RGB 图像对保留 500 对用于测试以及来自 LLVIP [13] 数据集的额外约 15K 个对。这两个来源是互补的HDRT 捕捉了多样化的环境设置而 LLVIP 侧重于弱光城市场景。我们的 DV-204K 数据集包含约 25K 个对齐的 IR-RGB 对带有约 204K 个 QA 标注平均每张图像有 8.1 个 QA 对。遵循 [19]QA 对以开放式指令微调格式制定例如“汽车是什么颜色的” → “汽车是蓝色的。”。重要的是问题在 RGB 和 IR 依赖的线索之间平均分配确保学习的模型暴露于特定模态的推理和跨模态对齐。DV-204K 旨在用于 MLLMs 的指令微调为模态感知推理和鲁棒的多模态集成提供大规模的 IR-RGB 数据。图 4. DV-500 中的 RGB 退化条件。三种失真类型的示例黑暗、模糊和雾每种应用于四个严重级别IR 保持不变。这些受控退化能够系统评估 VLMs 的鲁棒性。4.3. 用于评估的 DV-500文本[[92, 855, 479, 899], [517, 311, 903, 416]]IR-RGB 融合的一个关键目标是在 RGB 模态退化时保持准确性。为了在受控条件下评估此行为我们引入了 DV-500一个包含 500 个对齐的 IR-RGB 图像对和 500 个 QA 项的数据集。每个问题的设计都需要来自两种模态的互补信息来自 IR 的语义结构和来自 RGB 的细粒度外观线索。这种设计使我们能够评估 IR 图像是否可以在 RGB 图像退化时进行补偿同时仍然利用任何剩余的颜色或纹理信息。为了客观评分开放式问题被转换为二进制的“是/否”陈述遵循 [3, 25]。图像从 HDRT 中采样以获得高质量的 RGB 参考并应用退化。为了模拟视觉退化同时保留 IR 信号我们仅对 RGB 图像应用失真因为长波红外传感器测量的是发射的热辐射很大程度上不受许多可见光退化的影响。黑暗不会改变热辐射光学模糊主要影响可见光谱光学雾或霾对短波的散射远比对长波红外强。然而我们承认这种设置假设在这些条件下 IR 具有理想的鲁棒性。我们实现了三种失真类型黑暗、模糊和雾每种有四个严重级别加上一个干净条件总共 13 个评估类别图 4。详细内容在补充材料中提供。DV-500 旨在进行评估揭示模型如何在不同的退化类型和严重程度下整合互补的 IR 和 RGB 线索。5. 实验与结果我们提供了 DUALVISION 的全面评估。我们概述了基线和评估指标然后进行了系统的消融研究检查了 IR-RGB 融合的影响以及模型设计选择的效果。这些分析确立了用于与最先进 MLLMs 比较的 DUALVISION 最终版本。基线。我们针对开源和闭源 MLLMs 进行基准测试。开源基线包括 LLaVA 1.5-7B [19]、Qwen2-VL 7B [37]、LLaVA-Next Interleave 7B [16] 和 LLaMA-4 Scout [23]。为完整起见我们还评估了一些闭源商业系统如 Anthropic Claude Sonnet 3.5v2 和 Claude Opus 4 [34]。所有基线都在分辨率为 336×336 的 RGB 和 IR 图像上进行评估以确保公平比较。为了研究 IR-RGB 融合的作用我们在相同条件下评估了 LLaVA 1.5-7B 的变体使用仅 IR、仅 RGB 及其组合。为了评估我们融合设计的有效性我们实现了几种流行的融合策略每种都在 DV-204K 上使用相同的超参数和相同的退化感知协议进行训练。这些包括令牌级嵌入加法、自适应加权加法在求和之前应用可学习的令牌权重以及常用的拼接交错令牌然后进行线性投影。所有融合变体共享 LLaVA 1.5-7B 主干网络和冻结的 CLIP ViT-L/14 编码器 E确保性能差异仅源于融合机制。图 6. 融合方法的比较。我们比较了几种融合策略加法、自适应加法、拼接和我们的 DUALVISION。请注意拼接基线等同于微调后的 LLaVA-1.5-7B。完整结果见补充材料。指标与评估协议。评估在 DV-500 上进行。由于 DV-500 中的答案是二元的即是/否精确匹配准确度作为主要指标。我们专门分析了同时提供两种模态且问题需要来自每种模态的信息的设置。在这种情况下IR 贡献了稳定的语义结构而 RGB 提供了细粒度的纹理和颜色线索。这种设计使我们能够探究当 RGB 退化时IR 是否能够进行补偿同时仍然利用受损 RGB 输入中残留的任何颜色或纹理信息。遵循 DV-500 协议应用于 RGB 图像的退化包括模糊、黑暗和雾每种有四个严重级别此外还有干净图像。结果按失真类型和严重程度分层以实现细粒度的鲁棒性评估。5.1. 设计与消融研究模态的影响。我们首先分析每种模态对整体鲁棒性的贡献。仅 RGB 模型使用预训练的 LLaVA 1.5 7B 权重进行评估无需额外的微调而仅 IR 变体为了公平起见仅在 DV-204K 上使用 IR 图像进行微调。如图 5 所示单模态模型在干净和退化设置下的表现都明显较差。仅 IR 模型在 DV-500 上的准确率最低并且由于没有 RGB 输入其性能在退化过程中保持平稳。仅 RGB 模型在干净输入上表现良好但随着失真严重程度的增加而迅速恶化。相比之下整合两种模态在所有退化类型上都产生了一致的改进。在退化条件下仅 RGB 模型与我们方法之间不断扩大的差距凸显了多模态融合对于鲁棒感知的重要性。融合设计。我们将 DUALVISION 与几种已建立的 IR-RGB 融合方法进行比较以评估其在多模态集成中的有效性。具体来说我们实现了三种典型的融合策略令牌级加法、自适应加权加法和拼接每种都在 DV-204K 上使用相同的超参数和相同的退化感知协议进行微调。这些包括令牌级嵌入加法、自适应加权加法在求和之前应用可学习的令牌权重以及常用的拼接交错令牌然后进行线性投影。所有融合变体共享 LLaVA 1.5-7B 主干网络和冻结的 CLIP ViT-L/14 编码器 E确保性能差异仅源于融合机制。指标与评估协议。评估在 DV-500 上进行。由于 DV-500 中的答案是二元的即是/否精确匹配准确度作为主要指标。我们专门分析了同时提供两种模态且问题需要来自每种模态的信息的设置。在这种情况下IR 贡献了稳定的语义结构而 RGB 提供了细粒度的纹理和颜色线索。这种设计使我们能够探究当 RGB 退化时IR 是否能够进行补偿同时仍然利用受损 RGB 输入中残留的任何颜色或纹理信息。遵循 DV-500 协议应用于 RGB 图像的退化包括模糊、黑暗和雾每种有四个严重级别此外还有干净图像。结果按失真类型和严重程度分层以实现细粒度的鲁棒性评估。5.2. 与基线的比较表3总结了各类基线的结果包括开源VLMLLaVA系列变体、Qwen2-VL以及大型闭源系统。作为合理性检验我们在不提供任何视觉输入的情况下评估了LLaVA 1.5 7B其表现处于随机水平48.8%这证实了数据集的平衡性。当提供RGB和IR输入时所有VLM在干净数据上均取得了强劲的性能其中Qwen2-VL、LLaVA-Next以及闭源模型 consistently 达到了85%左右的中高水平。这表明现代MLLM在理想条件下能够有效解释视觉信息。然而在模糊、黑暗或雾等退化条件下性能急剧下降大多数基线的准确率损失了15–20个百分点。使用我们的退化感知协议在DV-204K上对LLaVA 1.5 7B进行微调显著提升了其鲁棒性证实了在退化视觉条件下训练的有效性。尽管如此DUALVISION在大多数设置下 consistently 优于这个微调后的基线以及所有其他VLM。这些结果突显了虽然退化感知学习能增强整体鲁棒性但DUALVISION中的融合与注意力机制对于实现最先进的多模态韧性仍然至关重要。图7中的定性比较进一步展示了DUALVISION在挑战性视觉条件下保持语义保真度的卓越能力。6. 结论本文提出了首批致力于开发集成IR与RGB图像的MLLM的工作之一旨在各种视觉退化条件下实现鲁棒的视觉感知与推理。我们介绍了DUALVISION一个用于MLLM的轻量级IR-RGB融合模块该模块执行多尺度局部交叉注意力实现了模态间的有效交互。结合我们用于指令微调的DV-204K和用于评估的DV-500DUALVISION为IR-RGB推理建立了一个有效的解决方案。我们的实验表明当前MLLM的性能在恶劣退化条件下如模糊、弱光和雾会显著下降而DUALVISION在所有设置下均带来了一致的性能提升。未来的工作可以研究端到端微调、容忍未对齐的融合、更广泛的多模态失真基准以及真实世界评估。