1、LLM(大模型)LLM = Large Language Model,大语言模型LLM(大语言模型):常见的LLM是基于 Transformer 结构、海量文本数据预训练,能理解、生成人类自然语言的模型,代表:GPT 系列、Llama、Qwen 通义千问、文心一言、星火大模型2、MLLM(多模态大模型)MLLM = Multimodal Large Language Model ,多模态大语言模型;能处理图片、音频、视频、文本,是所有超大参数量预训练 AI 模型的统称区别:LLM 只处理文本;MLLM = 文本 + 图像 + 音频 + 视频等多模态输入输出3、VLM(视觉语言大模型)VLM = Vision-Language Model 觉语言大模型作用:既能看懂图片,又能理解文字,图文交互问答输入:图片 + 自然语言提问输出:文字答案4、CLIP(图文对比预训练)CLIP(Contrastive Language-Image Pre-training)CLIP 是图文配对的尺子,没有 CLIP 就很难实现文生图、看图问答OpenAI 提出的图文对齐基础模型,VLM 的基石核心目标:把图片、文字映射到同一个向量空间图片编码器→图片向量文本编码器→文字向