99% 的大模型都以 LLM 为核心,剩下的 1% 是 Google 和纯生成模型
前言今天我们在使用不同的模型为我们工作或日常提供便利DeepSeek去做逻辑推理豆包模型去做中文理解历史人物解析背后故事生成通义千问模型帮我们做文书撰写、合同审查、PPT 生成…这些产品的定位功能各不相同仿佛是用完全不同的技术实现的。但如果剥开它们的外壳我们会发现一个惊人的事实99% 能用到的现代大模型本质上都共享着同一个核心 —— 一个强大的大语言模型 (LLM)。【另外 1% 几乎全是纯单模态生成模型它们只擅长特定类型的内容生成不具备通用的复杂逻辑处理能力】这篇文章学习目标分清大模型、LLM、多模态模型之间的关系结合GPT-4o、Claude 3、豆包4.0、DeepSeek等国内外最常使用及具代表性的模型一步步拆解大模型的实现本质底搞懂为什么LLM会成为所有AI的大脑。一、先把概念搞清楚大模型≠LLM很多人会把大模型和大语言模型混为一谈这是最常见的认知误区。我们先从定义上把它们分清楚1. 什么是大模型大模型的标准全称是大型预训练模型(Large Pre-trained Model, LPM)它有三个不可缺少的特征规模大参数量通常在数十亿到万亿级别训练数据量达到PB级预训练微调先在海量通用数据上进行一次性预训练再通过少量数据微调就能适配各种下游任务涌现能力当规模达到一定阈值后会突然具备很多预训练时没有教过的能力比如逻辑推理、数学计算简单来说大模型是一个通用的人工智能底座它可以处理各种类型的数据完成各种不同的任务。2. 什么是大语言模型(LLM)大语言模型(LLM)是大模型家族中最重要、最成熟的一个子集。它的定义非常明确专门以纯文本数据书籍、网页、代码、论文等为训练素材基于Transformer解码器架构构建核心能力是理解和生成人类自然语言国内用户最熟悉的纯LLM典型代表DeepSeek V2.5国内推理能力最强的开源纯文本大模型之一豆包3.5字节跳动自研的纯文本大模型中文能力出色通义千问2.5阿里开源的中文能力标杆纯文本模型文心一言3.5百度推出的纯文本大语言模型3. 大模型的完整家族树大模型是一个庞大的家族LLM只是其中一员大模型大型预训练模型 ├─ 单模态大模型 │ ├─ 大语言模型(LLM)DeepSeek V2.5、豆包3.5、通义千问2.5 │ ├─ 大视觉模型(LVM)Stable Diffusion、文心一格 │ ├─ 大语音模型(LAM)豆包语音、通义语音 │ └─ 大视频模型可灵、即梦、Sora └─ 多模态大模型 ├─ 图文多模态DeepSeek-VL、通义千问VL ├─ 图文音多模态GPT-4o、豆包4.0、Claude 3 └─ 全模态大模型Gemini Advanced看到这里我们可能会问既然LLM只是大模型的一个分支为什么说它是所有大模型的核心这就要从LLM的本质说起了。二、为什么偏偏是LLM成为了大模型的大脑LLM的本质其实非常简单它是一个被训练来预测下一个词的神经网络。1. 一个简单任务催生了通用智能我们可能觉得难以置信这么一个看起来极其简单的任务怎么会诞生出接近人类的智能举个例子当LLM看到北京是中国的这句话时它会预测下一个词最可能是首都当它看到11“时会预测下一个词是2”当它看到请证明勾股定理时会一步步预测出接下来的每一个字直到完成整个证明过程。在PB级人类文本数据上进行万亿次这样的预测训练后LLM不仅学会了语法和拼写还意外地掌握了人类的常识和知识逻辑推理和数学计算能力复杂指令的理解和执行能力甚至一定程度的创造力这就是大模型最神奇的涌现能力——量变引起质变。而目前为止只有LLM通过预测下一个词这个任务成功涌现出了通用的逻辑推理能力。2. 语言是人类智能的载体LLM能成为核心的另一个根本原因是语言是人类知识和思维的载体。人类所有的文明成果、科学知识、逻辑思维最终都可以用语言来表达。一个掌握了人类语言的模型本质上就掌握了人类的思维方式。而其他模态图像、声音、视频虽然也能传递信息但它们无法承载复杂的逻辑推理和抽象知识。一张图片可以告诉你猫长什么样但无法告诉你为什么猫会抓老鼠一段视频可以展示苹果落地但无法推导出万有引力定律。这就是为什么其他所有模态的大模型最终都需要接入一个LLM作为大脑——只有LLM能进行思考和推理。三、多模态大模型的本质LLM大脑感官器官这是本文最核心的部分也是90%的人都不知道的大模型实现真相。所有现代主流多模态大模型都采用完全相同的架构一个强大的LLM作为大脑加上若干个负责输入输出的感官器官。1. 标准架构公式多模态大模型 强大的LLM大脑 各模态编码器 各模态解码器2. 工作流程详解以豆包4.0看图为例当你给豆包4.0发一张猫的图片并问这是什么动物时整个过程分为三步输入转换眼睛看图片输入专门的视觉编码器被转换成一串和文本token格式相同的向量这个过程就像人的眼睛把光信号转换成神经信号传给大脑大脑处理LLM思考转换后的图像向量和你的文本指令这是什么动物拼接在一起输入豆包自研的纯文本LLMLLM根据自己学到的知识进行推理输出文本回答这是一只猫输出转换嘴巴说如果你开启了语音模式LLM输出的文本会再输入语音解码器转换成自然的人类语音整个过程中视觉编码器只负责翻译不负责思考。所有的理解、推理和决策100%由LLM完成。3. 最无可辩驳的证据国内开源多模态模型如果说商用模型的架构是黑箱那么开源多模态模型的代码和权重完全公开是LLM为核心最直接的证明。例子1DeepSeek-VL国内最优秀的开源多模态模型之一DeepSeek-VL的架构清晰地展示了LLM为核心的设计理念DeepSeek-VL SigLIP视觉编码器 轻量级投影层 DeepSeek纯文本LLM整个模型90%以上的参数都是DeepSeek纯文本LLM的参数视觉编码器只占不到10%的参数投影层更是只有几百万参数几乎可以忽略不计训练DeepSeek-VL的时候核心的LLM权重是完全冻结的只需要训练视觉编码器和投影层。也就是说你只需要用一张消费级显卡如 RTX 3090/4090训练几天就能把一个纯文本的 DeepSeek 变成一个能看图说话的多模态模型。例子2豆包多模态模型的架构原理豆包4.0虽然不是完全开源的但字节跳动官方在技术分享中明确披露了其架构豆包4.0 字节自研视觉编码器 字节自研语音编码器 豆包3.5纯文本LLM 语音解码器豆包4.0的核心推理引擎就是在纯文本的豆包3.5基础上优化而来的。所有的逻辑思考、指令理解和知识问答都由这个纯文本LLM完成。视觉和语音模块只是负责将非文本数据转换成LLM能理解的格式。例子3通义千问VL阿里开源多模态模型通义千问VL作为国内另一个主流开源多模态模型同样遵循这个架构通义千问VL SigLIP视觉编码器 特征融合层 通义千问纯文本LLM阿里只是在视觉编码器和特征融合方式上做了一些优化核心仍然是通义千问纯文本大语言模型。4. 国内外主流商用多模态模型验证所有我们能叫出名字的商用多模态模型都遵循这个架构GPT-4oOpenAI核心是GPT-4纯文本LLM添加了视觉编码器、语音编码器和语音解码器Claude 3 OpusAnthropic核心是Claude 3纯文本LLM添加了视觉编码器豆包4.0字节跳动核心是豆包3.5纯文本LLM扩展了图像理解、语音交互和视频生成能力文心一言4.0百度核心是文心纯文本LLM添加了多模态能力这些模型在纯文本任务上的表现和它们对应的纯文本版本完全一致这就直接证明了它们的核心没有改变。四、单模态大模型没有大脑的专业器官看到这里我们可能会问那Stable Diffusion、可灵这些纯图像和视频生成模型也以LLM为核心吗答案是它们的核心生成引擎不是LLM但它们正在快速集成LLM作为辅助大脑。1. 纯单模态大模型的本质纯单模态大模型是没有通用推理能力的专业器官Stable Diffusion/文心一格核心是扩散模型只能从随机噪声中生成图像无法理解复杂的逻辑指令可灵/即梦核心是扩散Transformer(DiT)只能生成视频无法进行思考和推理豆包语音核心是Transformer编码器-解码器只能进行语音和文本的转换它们就像一个没有大脑的画家只会机械地画画但不知道自己画的是什么也无法理解画一只戴着眼镜、正在看书的猫这样复杂的指令。2. 单模态模型正在拥抱LLM为了解决指令理解能力差的问题所有新一代单模态生成模型都开始集成LLMMidjourney v6集成了专门训练的LLM来解析复杂的自然语言提示词相比v5版本指令理解能力提升了数倍DALL-E 3深度集成了GPT-4会先让GPT-4把用户的简单提示词扩展成详细的描述再交给扩散模型生成图像可灵AI视频集成了通义千问LLM来理解用户的视频生成指令能够生成更符合逻辑的视频内容未来的趋势很明显所有单模态大模型都会接入一个强大的LLM作为大脑否则就会被淘汰。五、唯一的反例与技术路线之争看到这里细心的读者可能会发现我一直用的是几乎所有而不是所有。这是因为确实存在一个例外。1. 唯一的反例Google Gemini 1.0 UltraGoogle在发布初代Gemini的时候宣称它是一个**“原生多模态统一模型”**。【Gemini 模型的使用在全球市场是绝对的第二大玩家但是国内用户少】和LLM适配器的架构不同Gemini 1.0 Ultra从预训练阶段就同时用文本、图像、音频、视频数据训练所有模态共享同一个Transformer解码器主干。理论上它没有一个单独的纯文本LLM模块不存在谁是核心的问题。【所以感叹还是Google牛皮有钱烧啊不走寻常路】2. 反例的局限性虽然Gemini 1.0 Ultra走了一条不同的技术路线但它并不影响我们的核心结论这是全世界唯一的例外其他所有多模态大模型都采用LLM中心架构即使是Gemini语言仍然是其推理能力的主要来源纯文本任务的表现仍然是衡量其能力的核心标准最新的Gemini 2.0系列实际上已经大幅强化了语言能力向LLM中心架构靠拢3. 行业共识经过两年多的技术验证LLM为中心已经成为行业公认的最高效、最成熟的技术路线。原生统一架构虽然听起来很美好但在可预见的未来还无法取代LLM中心架构。所以单纯对于中国大陆用户来说这个结论可以进一步强化为100% 我们能正常使用的大模型全部都以 LLM 为核心。因为 Gemini 在中国大陆没有官方服务除非你翻墙而所有国产大模型无论是多模态还是单模态生成模型都采用了成熟的 LLM 中心架构。六、未来趋势LLM的核心地位只会越来越巩固更多的模态会被接入LLM比如3D模型、传感器数据、基因序列等LLM的上下文窗口会越来越大能够处理更长的文本和更多的模态信息小参数LLM的能力会快速提升让更多设备能够本地运行多模态AI结语大模型的本质就是一个会说话的大脑加上各种感官器官。无论AI的功能多么丰富无论它能生成多么逼真的图像和视频背后支撑它思考和推理的永远是那个强大的大语言模型。理解了这一点我们就不再是大模型的被动使用者而是能够站在更高的维度看清AI技术的发展方向更好地驾驭它为我们服务。大模型的未来本质上就是大语言模型的未来。