mllm指令微调的关键技术

张

张建站

2026/5/12 13:43:15

10分钟阅读

MLLMMultimodal Large Language Model指令微调的核心目标是让模型在图像/视频/文档等多模态输入条件下像聊天模型一样理解自然语言指令并输出符合人类偏好的、可 grounding 的答案。关键技术可以按下面几类理解。1. 多模态指令数据构建这是最关键的一环。数据通常包含多模态输入指令期望回答例如image 请描述图片中的主要物体及其位置。答案图片中央有一只狗左侧有一张椅子……常见数据类型包括图像描述、VQA、OCR、图表理解、文档解析、目标定位、视觉推理、多轮对话、视频问答等。LLaVA 的代表性做法是使用 GPT-4 生成图文指令数据再对视觉语言模型进行指令微调InstructBLIP 则系统研究了基于 BLIP-2 的视觉语言指令微调。([arXiv][1])数据质量通常比数据量更重要。ShareGPT4V 强调用更高质量、更细粒度的图像描述来增强多模态对齐其数据覆盖物体属性、空间关系、世界知识和审美判断等内容后续研究也开始关注用模型自身进行数据筛选以提升指令微调样本质量。([arXiv][2])2. 模态对齐视觉编码器、连接器与语言模型典型 MLLM 架构是图像/视频 → Vision Encoder → Projector / Q-Former / Cross-Attention → LLM → 文本输出指令微调前通常需要先做模态对齐让视觉特征能被语言模型理解。常见做法包括冻结视觉编码器和 LLM只训练 projector或在后期解冻部分 LLM、projector、视觉编码器高层参数。LLaVA 用视觉编码器连接 LLM 形成端到端视觉语言助手InstructBLIP 使用基于 BLIP-2 的结构做视觉语言指令微调。([arXiv][1])近年的经验表明视觉编码器、输入分辨率、视觉 token 数量对性能影响很大。MM1 的系统实验指出图像编码器、分辨率和图像 token 数对性能有显著影响而连接器设计在一些设置下相对不那么关键。([arXiv][3])3. 分阶段训练策略常见训练流程是视觉-语言预对齐用图文对、caption 数据训练 projector使图像特征映射到 LLM 可理解的语义空间。监督式指令微调 SFT用多任务、多轮、多模态指令数据训练模型遵循人类指令。偏好对齐用 RLHF、DPO、mDPO 等方法减少幻觉、提升回答偏好和安全性。任务增强微调针对 OCR、文档、图表、医学、工业质检、遥感等垂直场景继续微调。LLaVA-v1.5 的改进经验显示简单但高质量的视觉指令数据、学术 VQA 数据和响应格式设计可以显著增强基线模型。([arXiv][4])4. 参数高效微调LoRA / QLoRA完整微调大模型成本高因此 MLLM 指令微调常用 PEFT 方法尤其是 LoRA 和 QLoRA。LoRA 的核心是冻结原模型权重只在 Transformer 层中插入低秩可训练矩阵从而显著减少可训练参数QLoRA 则把基础模型量化到 4-bit再通过 LoRA 反向传播使大模型微调的显存成本大幅降低。([arXiv][5])在 MLLM 中LoRA 通常可加在LLM attention / MLP 层 Projector 层部分视觉编码器高层实践中常见选择是小数据集只训 projector LoRA领域数据较多时解冻 LLM 的部分层视觉领域差异很大时再考虑解冻视觉编码器部分层。5. 多模态幻觉抑制与 groundingMLLM 容易出现“看图说错话”的幻觉例如图中没有猫却回答有猫。解决方向包括加入正负样本让模型学会“不确定就拒答”使用目标框、点坐标、区域描述强化视觉 grounding构造偏好数据让模型偏向视觉证据充分的回答用 RLHF / DPO 类方法优化人类偏好和事实一致性。LLaVA-RLHF 将 RLHF 引入视觉语言对齐用事实增强的 reward model 缓解多模态幻觉LRV-Instruction 则通过包含正负指令样本的鲁棒视觉指令数据来降低幻觉。([arXiv][6])近年的 mDPO、V-DPO、HDPO 等方法进一步指出普通文本偏好优化可能忽略图像条件因此需要让偏好优化显式关注图像证据。([arXiv][7])6. 高分辨率、视频和文档理解现代 MLLM 指令微调不再只处理固定尺寸单图而是扩展到高分辨率图像、多图、视频、文档和表格。Qwen2-VL 引入动态分辨率机制使不同分辨率图像被编码成不同数量的视觉 token并使用 M-RoPE 融合文本、图像、视频中的位置信息LLaVA-OneVision 则强调单图、多图、视频场景之间的任务迁移能力。([arXiv][8])这类能力的指令微调重点包括多图上下文拼接视频帧采样与时间位置编码文档 OCR 与版面结构建模表格 / 图表结构化输出 bbox / point / region-level groundingQwen2.5-VL 技术报告进一步强调了目标定位、文档解析、表格/图表理解和长视频理解能力。([arXiv][9])7. 指令模板与损失设计指令微调时通常不会对所有 token 计算损失而是只对答案部分计算语言建模损失输入image user instruction 目标assistant answer loss主要计算 assistant answer tokens常见技巧包括统一多模态 special tokens例如image、video多轮对话格式对齐目标 LLM 的 chat template对用户问题、系统提示、图像 token 做 loss mask混合纯文本数据避免语言能力退化控制长答案比例避免模型啰嗦或幻觉扩散。MM1 的实验也表明图文、交错图文和纯文本数据的合理混合对多模态模型能力很重要。([arXiv][3])8. 评测与迭代MLLM 指令微调不能只看 loss需要多维评测感知能力物体、属性、颜色、空间关系推理能力图像数学、科学问答、常识推理 OCR/文档票据、表格、PDF、图表多轮对话上下文一致性幻觉是否编造不存在的视觉内容 grounding框、点、区域定位是否准确鲁棒性不同分辨率、裁剪、遮挡、长上下文InternVL 2.5 的技术报告也把多学科推理、文档理解、多图/视频理解、真实世界理解、幻觉检测、视觉 grounding、多语言能力等作为系统评估方向。([arXiv][10])总结MLLM 指令微调的关键不是“把图像数据喂给大模型”这么简单而是高质量多模态指令数据稳定的视觉-语言对齐结构合理的分阶段训练 LoRA/QLoRA 等高效微调幻觉抑制与偏好对齐高分辨率/多图/视频/文档能力扩展系统化评测闭环其中最影响最终效果的通常是数据质量、视觉 token 表征、训练阶段设计、幻觉控制和任务覆盖度。参考链接:[1]: https://arxiv.org/abs/2304.08485?utm_sourcechatgpt.com “Visual Instruction Tuning”[2]: https://arxiv.org/abs/2311.12793?utm_sourcechatgpt.com “ShareGPT4V: Improving Large Multi-Modal Models with Better Captions”[3]: https://arxiv.org/abs/2403.09611?utm_sourcechatgpt.com “MM1: Methods, Analysis Insights from Multimodal LLM Pre-training”[4]: https://arxiv.org/abs/2310.03744?utm_sourcechatgpt.com “[2310.03744] Improved Baselines with Visual Instruction Tuning - arXiv.org”[5]: https://arxiv.org/abs/2106.09685?utm_sourcechatgpt.com “LoRA: Low-Rank Adaptation of Large Language Models”[6]: https://arxiv.org/abs/2309.14525?utm_sourcechatgpt.com “Aligning Large Multimodal Models with Factually Augmented RLHF”[7]: https://arxiv.org/abs/2406.11839?utm_sourcechatgpt.com “mDPO: Conditional Preference Optimization for Multimodal Large Language …”[8]: https://arxiv.org/abs/2409.12191?utm_sourcechatgpt.com “Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution”[9]: https://arxiv.org/abs/2502.13923?utm_sourcechatgpt.com “[2502.13923] Qwen2.5-VL Technical Report - arXiv.org”[10]: https://arxiv.org/abs/2412.05271?utm_sourcechatgpt.com “Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling”