一、什么是多模态大模型1. 先回顾单模态 vs 多模态单模态模型只能处理一种类型的数据。 比如你之前学的纯文本大模型只能理解和生成文字无法直接看懂图片、视频、表格。多模态模型可以同时处理多种类型的数据文本、图像、音频、视频等并在不同模态之间建立理解和关联。 你可以把它理解成一个 “全能选手”既能读文字也能看图片还能把两者结合起来回答问题。2. 多模态模型的核心目标打破单模态的限制让模型更接近人类的感知方式 —— 我们理解世界本来就是 “图文结合” 的多模态就是让模型也具备这种跨模态理解能力。二、图文大模型的核心原理图文大模型比如 GPT-4V、Qwen-VL、LLaVA是多模态模型中最主流的一类它的工作原理可以拆成三步1. 图像编码把图片变成 “模型能懂的语言”模型没法直接理解像素所以第一步是用一个图像编码器Image Encoder把图片转换成一串向量也就是 “图像特征”。常见的编码器CLIP 的图像编码器、SigLIP 等。这一步的作用就像给图片写了一份 “文字摘要”方便后续和文本一起处理。2. 文本编码把文字也变成向量和纯文本大模型一样文本会通过文本编码器Text Encoder转换成词向量。常见的编码器就是你之前学的 Transformer 模型的词嵌入层。3. 跨模态融合让图像和文本 “对话”关键步骤把图像特征和文本特征融合进同一个模型的 Transformer 架构里让模型能理解 “图片 文字” 的关联。实现方式有很多种最主流的是Projection投影层用一个线性层把图像特征的维度对齐到文本特征的维度让两者能在同一个空间里计算。Adapter / 微调在图像和文本之间加一个轻量级适配器让模型学习两者的对应关系不用改动大模型的主体参数。4. 生成输出按文本指令回答问题当用户提问比如 “这张图片里有什么”模型会把图像特征 文本指令一起输入经过 Transformer 解码生成对应的文字回答。三、和纯文本大模型的核心差异对应你的补充任务表格对比维度纯文本大模型多模态图文大模型输入数据仅文本文本 图像甚至视频编码器文本词嵌入层图像编码器 文本编码器核心难点上下文理解、文本生成跨模态对齐、图文语义关联典型场景聊天、写代码、文本问答图片描述、OCR 问答、图文检索、多模态 RAG幻觉问题编造事实、生成错误信息除了文本幻觉还会出现图像理解错误比如认错物体、看错细节四、常见的图文大模型有哪些闭源商用模型GPT-4VOpenAI最知名的多模态模型图像理解能力强。GeminiGoogle支持图像、视频、音频多模态输入。国内文心一言、通义千问、讯飞星火等都有对应的多模态版本。开源模型适合你后续项目使用LLaVA最经典的开源图文模型基于 LLaMA/Alpaca 开发适合做图文问答。Qwen-VL通义千问多模态阿里开源中文支持好适合国内场景。MiniCPM-V轻量级多模态模型低配设备也能跑。