这项由南开大学计算机学院与阿里巴巴通义实验室、北京大学联合完成的研究以预印本形式发布于2026年4月arXiv编号2604.25819提出了一种名为Mutual Forcing互强迫的流式音视频联合生成框架在大幅降低计算步骤的同时实现了高质量的长时序音画同步生成。说起AI生成视频大多数人可能已经不陌生了。但你有没有想过让AI同时生成一段说话的视频和与之完全匹配的声音像真正的电影导演一样把画面和音轨一次性创作出来会有多难现有的系统大多只能分步走——先生成声音再生成视频或者反过来——两件事做起来都已经很费力合在一起更是难上加难。而且即便生成出来了那速度也慢得令人抓狂每生成一段视频系统要反复打磨上百次才能交出一个像样的结果。这就是这支研究团队面对的核心挑战能不能造出一个系统既能同时生成音频和视频又能跑得飞快还能在一段长达数十秒的内容里保持音画始终对得上他们给出的答案就是这篇论文的主角——Mutual Forcing。一、为什么音视频联合生成这么难先看问题根在哪里要理解这项研究的价值得先弄明白现有技术卡在哪里。把这件事想象成一位厨师同时烹饪两道菜一道需要慢火炖煮视频一道需要精确掌握火候音频。两道菜不仅要各自完美还要在同一时刻端上桌口味还要相互呼应。单独练好任何一道都需要花很多时间但要同时做好难度完全不是叠加而是相乘。当前研究领域里绝大多数工作都聚焦于单一菜品的精进比如专注于文字生成视频、图片生成视频、或者音频驱动视频这类任务。真正意义上的音视频联合生成——也就是从零开始同时创作出画面和声音——其实还是一个相对少被深入探索的领域。部分早期研究虽然有所涉及但通常局限于特定类型的数据集或者只能处理简单的声音事件远远达不到实用水平。即便解决了联合生成的问题还有两座大山挡在前面。第一座是速度现有的高质量生成系统普遍需要进行大量的去噪步骤简单理解就是从一团噪声里一点一点雕刻出清晰内容的过程通常需要五十步甚至一百步才能产出一个结果既耗时又耗算力。第二座是越跑越偏的问题这类系统在训练时看到的都是真实的历史帧但实际使用时却只能看到自己之前生成的内容——就像一个厨师在练习时用的是最顶级的食材正式上菜时却只能用自己上一道菜的剩余边角料来做下一道时间一长误差不断积累质量急剧下滑。二、双管齐下先把两位厨师各自培训好再让他们搭档面对如此复杂的挑战研究团队设计了一套两阶段训练方案思路其实和现实中培训厨师团队很相似。第一阶段他们分别独立训练音频生成模型和视频生成模型。两个模型在各自的数据上充分学习各自把手艺练扎实建立起稳定的单模态生成能力。这样做的好处是避免两个模型在联合训练初期互相拖后腿——如果一开始就强行让两个都还没学好的模型同时工作训练信号会非常不稳定收敛缓慢容易陷入次优解。第二阶段两个已经独当一面的模型被整合进一个统一架构在配对的音视频数据上进行联合微调。为了让音频和视频的信息能够真正对话研究团队特意将两个分支的自注意力机制融合在一起——用通俗的说法就是音频的注意力和视频的注意力在计算时共享同一个舞台彼此都能看到对方在做什么从而实现真正的跨模态同步。这个架构的一个重要设计原则是两个分支在结构上保持完全一致便于后续的无缝融合。训练数据方面视频数据来自Panda70M音频数据来自Emilia配对音视频数据则主要来自Seamless、SpeakerVid-5M和InternVid等数据集覆盖了大量真实场景下的人类说话视频。整个模型的规模相当可观音频分支和视频分支各有70亿参数合计140亿参数属于真正的大规模生成模型。三、流式生成像直播一样一帧帧往外播解决了联合建模的问题研究团队还有一个更野心勃勃的目标让模型能以流式方式工作也就是像直播流一样实时地、逐帧地生成内容而不是等到整段内容都生成完毕才一次性输出。这种方式的好处显而易见延迟低、可以无限延长、计算资源消耗也随着序列长度线性增长而非平方级增长这在技术上是个巨大的优势。这个框架在数学上被表达为在每个时间步k模型只根据之前已经生成的内容来预测下一帧就像一个讲故事的人只能基于自己已经讲过的部分继续往下编而不能提前看剧本。然而流式生成带来了两个棘手的技术难题。一是如何足够快——在一次去噪过程中如果需要走上百步实时生成根本无从谈起。二是如何防止越走越偏——每一帧的小误差都会叠加到下一帧的输入里时间一长误差像滚雪球一样越来越大生成质量就会急剧恶化。四、Mutual Forcing的核心秘密让同一个模型学会快跑和稳走这就轮到这篇论文最核心的创新登场了——Mutual Forcing。在讲清楚它之前先理解一下现有的几种解决思路以及它们各自的局限。最基础的做法叫Teacher Forcing教师强迫就是在训练时把真实的历史帧喂给模型让它学习。这就像练习烹饪时用的全是顶级食材——练起来效果好但真正上岗时食材换成了自己生成的次品落差太大生成质量随时间快速下滑。另一种改进叫Diffusion Forcing通过给历史帧加噪声来模拟误差缓解了部分落差问题但速度依然很慢。还有一种更先进的方法叫Self-Forcing自我强迫它的思路是用模型自己生成的历史帧来训练这样训练和实际使用时的食材质量就一致了。但这个方法有几个严重缺陷它需要额外训练一个双向生成的老师模型能看到前后文的模型然后再把这个老师的知识蒸馏到单向的流式模型里整个流程包含四个阶段非常繁琐而且老师模型的能力上限决定了学生模型的上限一旦老师不够好学生再努力也白搭此外由于老师模型限制训练时的视频长度被锁定在固定的几秒钟内无法处理更长的序列。Mutual Forcing的做法截然不同。它的核心思路是用同一套参数同时支持两种工作模式——多步模式Multi-step Mode和少步模式Few-step Mode。多步模式就是传统的精细生成像一个细心的画家一笔一笔慢慢雕琢每一步只走一小段走很多步才完成一张画。这种方式质量最高但速度慢。少步模式则是像一个经验丰富的素描家寥寥几笔就能勾勒出传神的轮廓四步或八步就完成整个生成过程。关键在于这两种模式用的是完全相同的一套参数就像同一个厨师既会慢炖又会快炒技巧是通用的只是操作节奏不同。在数学形式上多步模式输出的是一个瞬时速度向量告诉模型下一小步怎么走而少步模式输出的是一个时间区间内的平均速度告诉模型一大步怎么跳。五、两种模式如何互相喂养自我进化的双向循环Mutual Forcing真正精妙的地方在于这两种模式的训练方式是相互依存的形成了一个自我强化的闭环。在训练多步模式时研究团队做了一个关键改变不再用真实的历史帧作为输入而是先调用少步模式快速生成历史帧再把这些自己生成的历史帧作为上下文来训练多步模式的下一帧预测。这就让模型在训练时就已经习惯了处理自己生成的内容实际推理时就不会因为食材不同而表现失常。这个目标被称为训练-推理一致性。在训练少步模式时研究团队用多步模式的输出作为老师通过一种叫做自蒸馏self-distillation的技术来让少步模式学习少步模式生成一个结果多步模式对同样的输入给出一个更精准的答案但梯度被截断不影响多步模式自身的更新少步模式通过缩小与多步模式答案之间的差距来提升自己。这就像一个快速素描家在向细心画家看齐不断打磨自己寥寥数笔的精准度。由于两种模式共享参数这两个训练过程是紧密耦合的多步模式越来越强就能给少步模式提供更好的蒸馏目标少步模式越来越准就能给多步模式提供更真实的历史上下文。两者相互促进持续进步这正是Mutual Forcing相互强迫名字的由来。对比之前的Self-Forcing方法Mutual Forcing的优势在多个维度上都很明显不需要额外训练一个单独的老师模型节省了大量计算资源老师是自己的多步模式随训练持续提升不存在固定老师带来的上限问题训练序列长度可以灵活设置不被锁定在特定秒数内整个流程只需要两个阶段因果预训练加上双模自进化而不是四个阶段。六、具体怎么实现少步混合蒸馏策略在少步模式的具体训练中研究团队还做了一个细致的设计选择。他们注意到两种常见的蒸馏方法各有短板ShortCut风格的蒸馏训练稳定但在步数压缩到极致比如只有4步时质量明显下降DMD风格的蒸馏分布匹配蒸馏在少步条件下质量更好但训练过程容易不稳定对大规模音视频模型尤其危险。于是他们采用了一个混合策略将两种蒸馏损失按照一定比例结合在一起具体是DMD损失占三分之一、ShortCut损失占三分之二。这样既借助了ShortCut的训练稳定性又保留了DMD在少步生成上的质量优势二者取长补短。在技术细节上少步模式的训练以时间区间为单位给定一个从较高噪声水平到较低噪声水平的时间区间模型需要预测这个区间内的平均速度从而可以用一步更新代替多步迭代。老师信号来自多步模式在重新加噪的学生预测上进行的推理带有梯度截断假模型则负责追踪当前少步分布的行为用于DMD损失的计算。七、位置编码确保音频和视频在时间轴上精确对齐除了核心的双模自进化机制论文还特别设计了一套专门用于多模态流式生成的位置编码方案。研究团队采用了一种三维旋转位置编码3D RoPE将每个token的位置信息分解为时间、高度和宽度三个维度。视频token的三个维度都有实际含义而音频和文本token则将高度和宽度维度设为零只保留时间维度。所有位置索引都基于对应内容的实际时间戳计算而非简单的顺序编号。这样做确保了不管是视频帧、音频片段还是文字描述它们在时间轴上的位置对应关系是精确且一致的为音画同步提供了底层保障。模型还支持三种控制信号的组合输入第一帧的图像条件决定视频的初始状态和人物外观、描述整体场景的全局文字提示由Gemini 2.5 Pro自动生成、以及带时间戳的流式ASR控制信号由Whisper生成精确指定每段语音的内容和时机。这种设计让用户可以在生成长视频时通过文字精确控制说话人在每个时间段说什么话实现细粒度的内容控制。八、实验结果快25倍质量还更好论文在多个维度上进行了量化评估对比对象包括音频驱动的视频生成方法Fantasy-Talking、Omni-Avatar、Wan-S2V和音视频联合生成方法Universe-1、OVI。评估指标涵盖三个层面。在音视频对齐方面使用SyncNet置信分数来衡量唇形同步质量。在视频质量方面评估运动分数、美学分数和身份一致性。在音频质量方面评估CLAP特征的分布距离FD和KL散度、AudioBox美学评分包括感知质量、内容效果、内容独特性等子项以及通过词错误率衡量的语音识别准确度。结果显示Mutual Forcing在使用4步或8步去噪的情况下在绝大多数关键指标上超过了需要100步去噪的对比方法。以唇形同步分数为例8步的Mutual Forcing达到6.35高于OVI的6.19词错误率越低越好为0.11远低于OVI的0.17音频质量的内容独特性评分为6.51也优于OVI的5.69。这意味着在生成效果上的优势不是以牺牲质量换速度而是真的在质量和速度两个维度同时领先。推理速度方面对比数据更加直观。Universe-1需要4块GPU才能达到每秒0.6帧OVI需要8块GPU才能达到每秒1.3帧而Mutual Forcing在单块GPU上就能达到192×336分辨率下每秒30帧实时生成480×768分辨率下每秒12帧704×1280分辨率下每秒3.5帧。这不仅仅是速度的提升更是对算力需求的根本性降低——从需要多块高端GPU到普通单块GPU即可运行。此外研究团队还进行了人类评估实验收集了106份有效问卷让参与者在盲审条件下比较不同方法的输出。Mutual Forcing在视觉偏好、音频对齐和整体质量三个维度上均获得了最高胜率对比Universe-1时胜率高达91.7%对比OVI时也稳定在56.5%到67.4%之间。九、越跑越稳长视频不崩的秘诀研究团队还专门针对长序列生成进行了对比实验评估各方法在0到5秒、5到15秒、15到25秒三个时间窗口内的质量变化。这个实验设计的目的是看各方法在长时间运行后质量是否会急剧下降。对比基线包括三种用Teacher Forcing训练的DMD蒸馏模型、用Teacher Forcing训练的ShortCut蒸馏模型以及用Self-Forcing训练的DMD蒸馏模型。实验结果清晰地展示了越跑越偏问题的严重性这三种基线方法在音频和视频质量上都随时间窗口的推移出现了明显的下滑有些指标在第三个时间窗口里几乎跌落到初始水平的一半。相比之下Mutual Forcing的各项指标在三个时间窗口里几乎保持水平不变——音频内容独特性维持在5.70到5.41之间视频美学分数稳定在0.46身份一致性也从0.85轻微降至0.85。这种稳定性来自于训练过程中的自我进化机制由于少步模式在训练时就不断生成历史上下文模型已经充分练习了在处理自己的次品输入时如何保持高质量输出因此在实际推理时误差积累效应被大幅抑制。值得一提的是Mutual Forcing的训练并没有专门使用25秒长的序列但它依然能够在25秒的长视频生成任务上表现稳定说明这种双模自进化机制学到的是一种本质性的稳定策略而不仅仅是对特定长度的记忆。十、注意力分析数学层面的直觉验证为了从更底层的角度理解为什么Mutual Forcing有效研究团队还分析了模型内部的注意力机制行为。首先他们对比了多步模式和少步模式在各个网络层上的注意力图相似度。结果发现两种模式的注意力图在所有层上的余弦相似度都超过了97%。这说明共享参数的设计确实让两种模式学到了高度一致的内部表示少步模式在快速素描时用的思维逻辑与多步模式精细描绘时几乎完全一致这正是自我蒸馏能够成功的基础。其次他们对比了Mutual Forcing和原始Teacher Forcing模型在处理第10秒内容时的历史帧注意力分布。原始Teacher Forcing模型会把大量注意力集中在少数几帧历史帧上一旦这几帧出现误差影响会被急剧放大。而Mutual Forcing训练出的模型则把注意力更均匀地分布在更长的历史区间内不依赖于某几个关键帧从而天然地具备了更强的鲁棒性能够应对历史帧中偶发的质量波动。归根结底Mutual Forcing为联合音视频流式生成这个难题提供了一个简洁而有效的解法不需要复杂的多阶段蒸馏流程不需要额外的固定老师模型只需要让同一个模型的两种工作模式互相学习、互相提升就能同时解决速度和质量随时间退化这两大核心挑战。当然这项研究也存在一些客观局限训练数据的规模和多样性受限于研究资源对于多人对话或第一人称视角等场景的覆盖还不够充分而在更高分辨率下的实时生成也仍是未来需要继续优化的方向包括对长序列进行上下文压缩以及进一步减少采样步骤等。有兴趣深入了解技术细节的读者可以通过arXiv编号2604.25819查阅完整论文原文。QAQ1Mutual Forcing的少步生成是怎么做到只用4到8步就生成高质量视频的AMutual Forcing通过训练模型同时掌握两种模式多步模式像画家细细描绘少步模式则预测一大段时间内的平均速度从而用一步跨过多步的距离。少步模式通过自蒸馏不断向多步模式的高质量输出看齐同时混合了ShortCut训练稳定和DMD少步质量强两种损失函数最终实现了4到8步完成生成而不损失质量的效果。Q2Mutual Forcing和Self-Forcing有什么本质区别ASelf-Forcing需要先单独训练一个双向老师模型再经历多阶段蒸馏才能得到流式生成模型训练时序列长度被锁定且模型能力上限受制于老师。Mutual Forcing直接从因果模型出发用共享参数的两种模式互相训练多步模式持续改进后自动为少步模式提供更好的蒸馏目标无需外部老师训练长度也更灵活。Q3Mutual Forcing生成的长视频为什么不会越来越差A因为Mutual Forcing在训练时就让模型处理自己生成的历史帧而不是真实帧。这使模型从一开始就习惯了自身误差存在的环境学会了在不完美的历史输入下依然维持高质量输出。实验中即使在未曾训练过的25秒长视频上三个时间窗口内的音频和视频质量几乎没有下降。