北大、清华等高校联合揭开多模态大模型的感知盲区
这项由北京大学、清华大学、香港科技大学广州、浙江大学、中国科学院自动化研究所、上海交通大学、南京大学、复旦大学、南洋理工大学等十余所国内顶尖高校及快手AI团队联合开展的研究以预印本形式发表于2026年5月论文编号为arXiv:2605.18984有兴趣深入了解的读者可通过该编号查询完整论文。**AI造假视频越来越像真的但它终究会露馅——或者说它还会露馅吗**近几年AI生成视频的技术突飞猛进。从以前那种一看就像电脑特效的粗糙画面到如今越来越接近真实摄影机录制效果的高质量内容AI正在快速缩小与真实世界之间的距离。Sora、可灵、Veo 3……这些名字背后代表着一代又一代更强大的视频生成系统它们能够根据一段文字描述生成流畅的人物动作、真实的物理场景甚至连光线反射和水纹涟漪都能做得有模有样。然而再精巧的魔术师也难免穿帮。尽管AI生成的视频越来越好看但仔细观察你仍然可能发现一些奇怪的地方人的手指数量突然变了水面倒影和光源方向对不上一个人凭空出现又突然消失火焰燃烧的方向完全违背物理常识……这些破绽研究者们给它们起了一个专门的名字——**瑕疵Artifacts**也就是AI生成内容特有的不真实痕迹。正是围绕这些瑕疵这支由多所顶尖机构组成的研究团队提出了一个关键问题目前那些被认为具有强大视觉理解能力的多模态大模型也就是能同时看图、看视频、理解文字的AI系统真的能识别出这些AI生成的破绽吗为了回答这个问题他们构建了一个名为**Artifact-Bench**的系统性评测基准并对19个当前最先进的多模态大模型进行了全面测试。结果令人大跌眼镜。---一、什么是AI生成视频的瑕疵为什么值得专门研究要理解这项研究先得搞清楚这些瑕疵到底是什么。把AI生成视频的过程比作一位从来没有亲身经历过真实世界的画家他只通过看了大量照片和视频来学习什么是真实的。当他开始自己作画时大多数情况下画得相当不错但偶尔会因为对世界运作方式的理解不够透彻而犯错——比如画出五根手指的手却让食指长在大拇指位置或者画一个人坐在椅子上但椅子的腿穿过了地板。这种犯错就是AI生成视频中的瑕疵。这些瑕疵有多种形态。有的是肉眼一看就能发现的视觉问题比如画面某个区域模糊得与其他部分格格不入颜色曝光突然异常或者本来应该清晰可读的文字变成了一堆乱码。有的则需要你关注前后几帧画面才能发现比如一个球从左侧滚出画面但下一帧它又莫名其妙地出现在右侧中间没有任何移动的过程。还有一种更难察觉的需要你对真实世界的物理逻辑有所了解才能识别——比如有人用灭火器朝着火源反方向喷射或者一根木头被锯断之后又自己愈合了。研究团队通过大量人工审查AI生成视频反复归纳、合并、精炼最终建立了一套**三层级的瑕疵分类体系**包含30种具体的瑕疵类型。这套体系从宏观到微观分为三层。最顶层把所有瑕疵分成三大类**表面瑕疵**靠看局部画面就能发现的视觉缺陷、**结构缺陷**需要理解物体和场景的整体结构才能察觉以及**时空-语义违规**需要跨越多个画面并结合常识推理才能识别。中间层将每大类进一步细分为若干失败族群比如表面瑕疵下面有色彩与曝光异常、相机与镜头失真、图像质量与纹理问题等子类别。最底层则是30种可以直接用于标注和评测的具体瑕疵类型例如纹理不一致、不可逆性违规、生物解剖学违规手指数量错误就属于这类、反射不一致等等。这套分类体系的设计原则之一是诊断性优先于互斥性。也就是说同一段视频可能同时出现多种瑕疵而同一种可见的异常背后也可能涉及多个层次的问题——比如一个角色的头部在不同帧之间形状发生变化既涉及结构上的身份变形也涉及时间上的特征不稳定。这种多标签的设计让评测更接近真实情况。---二、测试场地怎么搭建——Artifact-Bench是如何设计出来的有了分类体系之后研究团队面临的下一个挑战是怎么用它来考验那些AI模型他们设计了三种逐渐升难度的考题形成一个从粗到细的评测阶梯。第一种考题叫做**真实视频与AI生成视频分类**简称RVAC。这道题的形式非常直接给模型看一段视频问它这段视频是AI生成的吗模型只需回答是或否。为了排除内容本身的干扰比如模型靠这个场景不现实来判断而不是靠瑕疵来判断研究团队让每段真实视频都配有一段内容相似的AI生成对照版本。这样一来模型无法靠这个场景很奇怪来蒙混过关必须真正看出视觉上的生成痕迹。第二种考题叫做**成对视频真实感比较**简称PVRC。这道题更进一步同时给出两段AI生成的视频问模型哪段看起来更真实。两段视频内容相近但瑕疵的严重程度不同。这道题考察的不再是简单的真假识别而是对真实程度的细粒度判断相当于从能不能看出破绽升级到能不能比较出哪个破绽更严重。第三种考题叫做**瑕疵识别**简称AID是三道题中难度最高的。给模型看一段AI生成的视频同时提供六个可能的瑕疵选项这六个选项全部来自那30种具体瑕疵类型要求模型选出视频中实际存在的所有瑕疵。关键在于正确答案可以是多个而那些错误选项都是与正确答案同族或邻近的瑕疵类型比如生物解剖学违规和非生物结构缺失都跟结构问题有关但含义不同。模型不能靠粗略的大类判断来蒙题必须精确区分相似但不同的瑕疵概念。在数据来源上研究团队使用了一个混合策略。真实视频来自网络公开来源AI生成视频则覆盖了多款主流生成系统包括快手的可灵2.5和2.1、谷歌的Veo 3、腾讯混元Video 1.5、LTX-2.3、Wan2.2等。他们还使用Gemini 3.1 Pro对视频内容生成文字描述再用这些描述去生成对应的AI版本确保内容相似性。对于某些在自然收集中很少见的瑕疵类型团队专门设计了失败导向的生成提示词故意引导AI生成含有该类瑕疵的视频再人工筛选合格样本。整套数据集最终包含1350段视频构成1100个有效评测样本分布在动物、人物、建筑、自然场景、动作等五大类别涵盖20个具体场景视频分辨率从720p到1080p不等时长从几秒到十秒以上都有。每道题还根据瑕疵的明显程度分为三个难度等级L1是瑕疵明显、容易识别的简单题L2是中等难度L3则是AI生成视频接近真实、瑕疵极其细微的硬题。在标注质量上团队采用了严格的人工审核流程。每段AI生成视频先由3名有经验的标注员独立审查只有三人意见完全一致才能入库如果有分歧再由额外2名标注员介入复审最终所有入库样本还需要通过2名具有丰富行业经验的专家的最终审核。难度分级同样经过类似的多人独立评级和讨论机制确保标注的可靠性。---三、19个顶尖AI模型都考了多少分——测试结果出乎所有人预料研究团队对19个当前最先进的多模态大模型进行了全面测试并额外邀请了4名人类专家来完成同样的题目作为参照基准。先说人类专家的表现在真实与AI生成视频分类任务中人类专家平均正确率达到93.6%在成对比较任务中是86.4%在瑕疵识别任务中是80.3%三项综合得分约为87.7分。这说明这些题目对人类来说整体可做尽管也有一定难度。再看这19个AI模型。表现最好的是谷歌的Gemini 3.1 Pro三项综合得分47.5分。在视频真实感比较任务中勉强达到了48.6%的平均正确率在真实与AI生成分类任务中有74%的平均正确率但在瑕疵识别任务中只有9.8%的平均正确率。而第二名Gemini 3 Flash的综合得分是43.8分。来自同一家开发公司的VideoVeritas 8B得了46分算是开源专用模型中的最高分。其余大多数模型的综合得分集中在33到40分之间。Qwen3-VL 32B指令版得了39.5分是开源通用模型中的最高分。多个模型在真实与AI生成分类任务中的平均正确率徘徊在48%至52%之间——而纯随机猜测的正确率恰好是50%。换句话说很多模型的表现基本等同于抛硬币。瑕疵识别任务的成绩更是惨不忍睹。几乎所有19个模型的平均正确率都不超过10%而人类专家是80.3%。这意味着当被问到这段视频里具体哪里有问题时当前最强的AI系统给出正确答案的概率不到十分之一而人类专家可以答对八成。专为AI生成视频检测专门训练的三个专用模型Skyra、BusterX、VideoVeritas表现也并不特别突出分别得了29.4分、36.2分和46分并没有在所有任务上碾压通用模型尤其是在成对比较和瑕疵识别两个任务上表现同样欠佳。---四、仅仅把模型做得更大、更聪明并不能解决这个问题测试结果还揭示了一个颇为微妙的规律单纯扩大模型规模或者给模型添加思维链推理让模型在回答前先一步步推导并不能稳定提升瑕疵感知能力。以InternVL3.5系列为例38B参数版本参数量相当于一个拥有380亿个计算单元的大型系统与8B版本80亿参数的综合得分非常接近分别是34.7分和34.5分。参数多了将近五倍但在这个任务上几乎没有带来明显提升。同样的现象也出现在Qwen3-VL系列中32B版本确实比8B版本稍好但差距并不像在其他视觉理解任务上那样悬殊。更有趣的是思维链推理的效果。Qwen3-VL、MiMo-VL、Skyra等模型都提供了指令执行版和深度思考版两种变体。结果显示在多个任务和难度等级上深度思考版的成绩反而不如普通版。比如Qwen3-VL 8B深度思考版的综合得分是33.3分低于普通版的36分Skyra 7B深度思考版是32分也低于普通版的29.4分——虽然两者差距不大但深度思考并没有带来预期中的显著改善。这个现象背后的原因在于识别AI生成视频中的瑕疵与常见的视觉问答任务有本质不同。常见的视觉推理题比如图片中有几个人、描述这张图片的场景主要依赖对视觉内容的语义理解而瑕疵识别需要的是**感知层面的细粒度辨别**——察觉到某一帧中某个局部区域的模糊程度与周围不一致或者追踪一个物体在连续30帧中的形状变化。这种能力更接近于视觉直觉而非文字逻辑仅靠堆砌参数量或增加推理步骤并不能让模型获得这种直觉。---五、AI模型感知盲区的两个具体案例研究团队专门展示了两个典型的失败案例帮助理解这些AI模型的感知盲区在哪里。第一个案例是一段视频画面中出现了一个桨穿透船体侧壁的场景——桨的末端插入船身这在物理上是不可能发生的。但这个异常只发生在画面的一个很小的局部区域大部分画面内容是正常的水面和划船动作。大多数AI模型因为在处理视频时会对视觉信息进行压缩和整体特征提取导致这个小破绽被淹没在大量正常内容中没有被注意到。第二个案例是一段足球场上的视频画面中出现了一个诡异的现象原本只有一个足球在某几帧中变成了两个球然后又变回一个。要发现这个问题必须横跨多个时间帧去比对同一区域的内容变化而不能仅靠单帧的视觉信息。当前的多模态大模型在处理视频时通常采用稀疏帧采样每秒只取几帧并且更擅长理解单帧内容而非追踪跨帧的细节变化因此这种时间型瑕疵很容易被漏掉。这两个案例代表了瑕疵识别中的两大核心挑战一是**空间细粒度**破绽藏在局部小区域里二是**时间连贯性**破绽分布在多个不连续的时间帧中。目前的AI系统在这两个维度上都存在明显短板。---六、更令人担忧的发现AI的判断和人类的感知根本不在同一频道或许测试中最值得关注的发现不是模型的得分而是模型表现出来的判断逻辑与人类感知之间的系统性偏差。对于人类来说随着视频的逼真程度提高、瑕疵变得越来越隐蔽识别难度自然上升正确率也会相应下降。这个趋势非常稳定在L1明显瑕疵、L2中等难度、L3细微瑕疵三个级别上人类专家的成绩几乎每次都按照L1L2L3的顺序依次下降反映出真实的感知能力随难度提升而受限的规律。但AI模型的表现完全不符合这个规律。在很多情况下模型在L2上的得分比L1还高在L3上的得分有时又高于L2甚至出现越难越准确的反常现象。这说明模型判断的依据并不是视频中的真实瑕疵而很可能是某些与难度等级相关的统计特征——比如L3视频因为质量更高而具有某种特定的画面特征而模型无意中学会了把这种画面特征与某个标签关联起来。这个问题对于AI生成视频领域的实际应用影响极大。目前越来越多的研究者希望用多模态大模型作为视频生成质量的自动评估工具甚至将其纳入强化学习的奖励信号——简单来说就是让AI模型来判断一段生成视频是否够好再用这个判断来训练和改进视频生成模型。但如果这个裁判本身的判断依据和人类完全不同那么被训练出来的视频生成模型就会朝着讨好AI裁判而非真正提高视觉质量的方向演化最终产生表面上骗得过AI、但人看起来仍然怪异的视频。---说到底这项研究揭示的是一个技术领域长期被忽视的基础性问题多模态大模型虽然在语言理解、图像描述、视觉问答等任务上取得了令人瞩目的进展但在像人类一样感知图像和视频中的细微不自然之处这个能力上它们还差得很远。它们能告诉你这个场景里有一个人在划船但未必能告诉你这个人的桨穿进了船身。这个差距的根源不在于模型不够聪明而在于现有的训练方式和架构设计更适合培养语义理解能力而非感知层面的细粒度辨别能力。就像一个博览群书的学者未必能比专业画家更快发现一幅画里的透视错误——知识广度与感知精度是两种不同的能力。Artifact-Bench的建立为这个领域提供了一个清晰的测量尺。下一步研究者们需要在模型设计、训练数据和评测方法上进行有针对性的改进才能真正让AI具备可靠的慧眼——不仅能看懂视频说了什么还能发现视频哪里不对劲。有兴趣深入了解这项研究的读者可以通过论文编号arXiv:2605.18984查阅完整论文。---QAQ1Artifact-Bench测评基准具体是怎么评测多模态大模型识别AI生成视频能力的AArtifact-Bench设计了三种逐步升级难度的考题。第一种是让模型判断一段视频是否由AI生成只需回答是或否。第二种是给出两段AI视频让模型判断哪段更真实。第三种也是最难的给出一段AI视频和六个可能的瑕疵选项要求模型选出所有实际存在的瑕疵正确答案可能不止一个。三类题目覆盖了从粗到细的不同感知层次。Q2多模态大模型在识别AI生成视频瑕疵方面的主要短板是什么A主要有两个短板。一是空间细粒度不足当瑕疵只出现在画面的小局部时模型容易忽略它。二是时间感知能力弱当瑕疵需要比较多帧画面才能发现时模型因为帧采样稀疏而漏掉。此外增大模型规模或者启用深度思考模式并不能稳定改善这两个问题说明这是现有架构和训练方式的结构性短板。Q3AI模型识别AI生成视频能力差会有什么实际影响A影响主要体现在两方面。一是用AI模型作为视频生成质量的自动评分工具时其判断不可靠因为它的评判标准和人类感知不一致。二是如果用它来给视频生成模型提供训练反馈信号可能导致生成模型学会骗过AI裁判而非真正提升画面质量最终产生对人来说仍然不自然的视频内容。