这项由中国科学院计算技术研究所人工智能安全国家重点实验室联合中国科学院大学、中国矿业大学北京、苏黎世联邦理工学院、纽约城市大学城市学院以及厦门数据智能研究院共同完成的研究以预印本形式发布于2026年5月15日论文编号为arXiv:2605.16003有兴趣深入了解的读者可通过该编号查阅完整原文。你有没有这样的经历——跟朋友讲一个长故事讲到中间突然忘了最开始说的是什么场景然后前言不搭后语把听众搞得一头雾水AI生成视频系统正面临着完全相同的困境而且麻烦比这更复杂。一段五分钟的视频对AI来说就像一个需要同时记住几百个画面细节的超长叙事稍有不慎画面中的角色就会悄悄换张脸背景会莫名奇妙地变换前面精心铺垫的场景在后半段被彻底遗忘。这项研究的核心贡献就是给AI视频生成系统装上一套真正能用的记忆管理系统研究团队将其命名为Echo-Forcing。这个名字很有意思——回响就像声音在山谷中传播后再次回来代表着历史信息被有序保存、在需要时被准确召回的能力。一、为什么AI记性差是个大问题要理解Echo-Forcing解决了什么问题先得明白现在的AI视频生成是怎么工作的。目前最先进的视频生成模型采用的是一种叫做自回归的方式来生成视频通俗地说就是每次只生成一小段画面比如几秒钟然后把这段画面记下来再生成下一段如此循环。这就像作家写长篇小说时写完一章再写下一章而且每次下笔时都要回顾一下之前写了什么保证故事连贯。AI在这个过程中用来记忆历史画面的工具叫做KV缓存Key-Value Cache。可以把它理解成一个速记本AI把已经生成的画面信息摘要记在本子上生成新画面时翻看这本速记本来保持一致性。问题在于这本速记本的容量是有限的当视频越来越长速记本装不下了怎么办现有的方法基本上就是先进先出——最早记的东西被新的内容顶出去就像一个只能装21张便利贴的留言板贴满了就得撕掉最旧的。这个策略在视频内容一直不变、只是慢慢往下推进的情况下还勉强能用。但现实中的视频往往更复杂导演会切换场景故事会在不同地点之间跳跃甚至需要在后面回到之前出现过的某个场景。这时候简单的忘旧记新策略就完全失效了。研究团队经过深入分析找到了问题的根本症结所有历史记录都被当成同等重要的东西塞在一起没有区分哪些是稳定的地基哪些是需要随时翻看的近期记录哪些是将来要召回的重要场景。这就好比一个编剧把所有的剧情便条、场景卡、人物介绍全部混在一个大袋子里找东西的时候只能翻个底朝天而且袋子满了就只能把最旧的扔掉结果第一集的核心设定可能就这么丢了。研究团队将这种混乱状态称为KV状态的功能性纠缠意思是不同功能的历史信息被强行塞进同一个管理框架导致了三重困境一是背景信息被过时数据污染二是新指令的响应被延迟三是长距离的场景记忆丢失。二、解题思路把记忆变成有生命周期的活档案Echo-Forcing的核心思想可以用一家档案馆来理解。一家运转良好的档案馆不会把所有文件都堆在同一个房间里而是会分区管理常用的近期文件放在前台触手可及的地方重要的历史文件被整理归档方便查阅不再相关的过时文件则会被有序销毁。研究团队把AI的记忆管理提升到了同样的高度提出了场景记忆生命周期的概念每一段历史信息都应该有它的生命周期——被保存Preserve、被召回Recall、被遗忘Forget。这三个环节分别对应了Echo-Forcing的三个核心机制它们互相配合共同构成了一套完整的记忆管理体系。三、第一重机制把记忆分成三层的分级档案柜第一个核心机制叫做分层时序记忆Hierarchical Temporal Memory负责处理日常的视频生成过程也就是在场景不发生大切换时如何维持长期的稳定性和近期的流畅性。研究团队发现AI在生成视频时需要三种不同时间跨度的记忆最早期的画面提供全局参考就像一部电影的世界观设定要贯穿始终中间阶段的画面提供演化背景就像故事的主线剧情需要被压缩保存最近几秒的画面提供局部连续性就像刚刚发生的动作要与下一帧无缝衔接。对应这三种需求Echo-Forcing设计了三个专属的存储区域。第一个区域叫做双向滚动早期锚点。所谓锚点就像船锚一样把整个视频稳定在最初建立的视觉风格和内容基础上。系统从最早生成的画面中挑选出最清晰、最有代表性的若干帧作为长期参考基准。这些锚点帧被存入一个拥有18个格位的循环池每次实际使用12个。为了避免一直反复使用同样的几帧导致画面僵化系统会以一正一反交替的顺序刷新这些锚点——先正向浏览再反向浏览再正向……这种双向轮换的方式既保证了稳定性又不让视频陷入呆板重复。第二个区域叫做漂移门控相位压缩这个名字看起来很高深但背后的逻辑其实相当直观。在漫长的视频生成过程中历史上留下的大量画面记录不可能全部保留必须经过压缩筛选只保留最有价值的部分。怎么判断一段历史记录最有价值普通方法是直接用当前的视觉注意力分数来打分但这有个问题离当前时刻越近的记录分数往往越高而真正重要的远古记忆可能反而被淘汰。Echo-Forcing的解法是建立一个基准参考系在视频生成的早期阶段画质最稳定、内容最可信的阶段收集AI的注意力模式计算出一个平均的标准查询中心。此后在筛选历史记录时不是用当前的注意力偏好来评分而是用这个稳定的标准查询中心来评估每条历史记录将来可能有多大用处。但早期建立的参考系也不是一成不变的金科玉律。随着视频的发展整体风格可能会有所漂移这时候如果死抱着最初的标准不放反而可能错过有用的近期信息。于是系统引入了一个漂移门——通过比较当前注意力中心与早期标准之间的相似度来动态调整。当两者吻合度高时完全依照早期标准当偏差变大时相应降低早期标准的权重转而更多依赖近期信息。这个门控机制就像一个经验丰富的编辑既尊重最初的创作方向又懂得与时俱进。第三个区域则是近期滑动窗口保留最新生成的几帧画面确保当前这段视频与上一段的动作、光线、构图完全连贯不出现突兀的跳跃。第四个配套设计是相对RoPE位置编码。这是一个技术性处理但它解决的问题很好理解AI模型在训练时只见过21帧以内的短视频当视频生成到成百上千帧时AI从没见过第500帧、第1000帧这样的位置编号会感到完全陌生。解决方案是不告诉AI真实的帧序号而是永远把当前活跃的缓存重新编号为第0帧到第20帧无论真实视频已经生成了多长。这样AI始终工作在它熟悉的范围内不会因为位置数字超出训练经验而产生错误。通过实验验证这套分层记忆机制在生成60秒和120秒的长视频时在视觉质量画质评分从70.48提升至72.83、时序稳定性运动流畅度达到99.05为所有对比方法中最高和动态表现等指标上均达到最佳水平同时保持了15.71帧每秒的有竞争力的生成速度。四、第二重机制为每个场景建一张精华速写第二个核心机制叫做场景召回帧Scene Recall Frames专门解决用户想要AI重新回到之前某个场景这个需求。在电影制作中这种情况非常常见。比如故事的前三幕分别在屋顶、地铁、书店展开后三幕要依次重访这三个地点但动作和细节有所不同——这就需要AI在生成第四幕时能准确还原第一幕的屋顶场景而不是凭空杜撰或者把第三幕的书店场景张冠李戴。最直接的方法是把每个场景的所有原始画面帧都完整保存起来等到需要召回时直接拿来用。但这样做的代价极高存储每个场景几十帧的完整视觉信息随着场景数量增加内存消耗会迅速爆炸。而且大量的原始帧中有很多是重复的或者信息量很低的直接塞入AI的注意力机制反而会产生干扰。另一种方法是只保存每个场景的单独一帧作为代表。但这样又太简单粗暴了——一个场景里角色可能在不同时刻有不同的姿势、位置和表情单独一帧无法全面代表整个场景的信息。Echo-Forcing采用了一个更精妙的中间方案从每个场景的稳定阶段选取5帧候选画面然后对这5帧进行空间位置加权融合。具体来说画面中的每一个空间位置比如左上角、正中央、右下角独立地对这5帧进行评估根据每一帧在该位置上的信息质量分配权重再加权平均出一个精华代表。这就像是为一个场景制作一张精华速写素描师不会机械地复制某一刻的画面而是综合这个场景里最有代表性的视觉特征提炼出一张既紧凑又信息丰富的浓缩图像。这张速写被存入场景记忆池等到该场景被召回时直接取用既保证了信息的丰富度又控制了存储和计算的开销。实验数据清晰地验证了这个设计的优越性。在场景召回任务上没有记忆支持的基准模型主体一致性仅有74.97分改用场景第一帧作为参考能提升到76.14分选用最关键单帧能达到76.49分而使用Scene Recall Frames的融合方式主体一致性跃升至83.39分文本对齐度也从33.48提升至34.27远超所有单帧方案。五、第三重机制像免疫系统一样消化旧记忆第三个核心机制叫做差异感知记忆衰减Difference-aware Memory Decay它处理的是最微妙的问题场景发生切换之后旧场景的残留记忆应该如何处理直觉上最简单的做法是一刀切——新场景开始把所有旧场景的记忆一次性清空。但这个方法太粗暴了。很多时候新旧场景之间存在部分重叠——比如同一个人物出现在不同背景中人物的外貌、服装、动作习惯等信息在新场景中依然有用或者两个场景的整体色调和光线风格相近旧的背景记忆不仅无害反而有助于保持视觉连贯性。所以正确的做法不是清空而是有选择地清空——对旧记忆中与新场景冲突的部分快速清除对与新场景兼容的部分慢慢消退甚至保留。Echo-Forcing的实现方式如下切换到新场景后系统先生成新场景的第一段干净画面作为参照。然后对缓存中的每一条旧场景记忆计算它与新场景参照在对应空间位置上的相似度——差异越大说明这条旧记忆与新场景冲突越严重就给它分配越高的遗忘强度差异越小说明这条旧记忆对新场景仍有参考价值就给它分配较低的遗忘强度。随后每条旧记忆的权重按照各自的遗忘强度以指数方式衰减遗忘强度高的记忆权重迅速缩小遗忘强度低的记忆权重缓慢减少。这个衰减同时作用在记忆的钥匙Key和数值Value两个层面——前者影响AI在搜索时找不找得到这条记忆后者影响找到后它能产生多大影响。双层衰减产生了双重压制效果冲突记忆不仅越来越难被注意到即使被注意到其影响力也越来越微弱。这套机制就像人体的免疫系统处理旧伤疤的方式身体不会一夜之间把伤口附近的所有组织都切掉而是随着新组织的生长逐渐让旧组织中不再需要的部分被吸收和替换而真正有用的结构性组织则被保留下来。实验表明这种差异感知式的软衰减远优于固定比例的统一衰减。不做任何衰减时文本对齐度仅有25.74分使用固定衰减率0.5时提升到27.34分而Echo-Forcing的差异感知衰减将文本对齐度进一步推到了29.77分同时主体一致性95.32和背景一致性93.74也均高于所有固定衰减策略。六、四种交互模式一套系统全搞定上述三重机制协同运作使Echo-Forcing能够在一个统一的框架内支持四种截然不同的长视频生成模式。第一种是最基础的长时程生成——在单一场景下持续生成几分钟甚至更长的视频。分层时序记忆全程负责锚点层保持全局稳定压缩层维持中期演化近期窗口保证局部流畅。第二种是平滑过渡——场景缓慢演变比如从站立到行走从室内移动到室外。此时旧场景记忆与新场景高度兼容差异感知衰减几乎不触发历史记忆被大量保留确保过渡的自然感。第三种是硬切换——就像电影里的蒙太奇场景突然跳到完全不同的地点或时间。此时旧场景背景与新场景高度冲突差异感知衰减强力介入迅速清除不兼容的旧背景记忆同时保留角色相关的记忆以维持人物一致性。位置编码也相应被赋予较大的时间偏移45帧在视觉上制造明确的断点感。第四种是长距离场景召回——如前文提到的A-B-C-A-B-C结构后半段需要精确复现前半段的各个场景。场景召回帧池在此大显身手被访问过的每个场景都有对应的精华速写存档需要时直接取用确保召回场景与原场景的视觉风格、背景构成高度一致同时支持不同动作和视角的灵活变化。为了让用户不必手动指定每次切换属于哪种模式研究团队还设计了一套自动路由机制系统通过计算新提示词与历史提示词之间的文本相似度自动判断应该走哪条路径。相似度高且是紧邻场景走平滑过渡相似度高但不是紧邻场景走场景召回相似度低走硬切换。用户也可以在提示词后面加上简单标签[10s]表示平滑过渡[10s#]表示硬切换[10s]表示场景召回来手动指定。七、实验结果数字说话人类眼睛也买账研究团队在VBench-Long基准上对Echo-Forcing进行了全面评测涵盖长视频生成和交互式视频生成两大类任务。在长视频生成方面研究团队从MovieGenBench中随机抽取了128个提示词用于60秒视频评测64个提示词用于120秒视频评测每个提示词用四个不同的随机种子生成视频以减少偶然性。对比的方法包括Self-Forcing、∞-RoPE、Deep-Forcing、Rolling-Sink和LongLive等当前最先进的方案。结果显示Echo-Forcing在60秒视频上美学质量达到61.69对比方法最高为61.61背景一致性达到97.17对比方法最高为96.35画质评分达到72.09对比方法最高为71.89。在120秒更长的视频生成中优势更为明显画质评分从对比最优的70.48大幅提升至72.83运动流畅度达到99.05所有方法中最高时序稳定性评分也达到98.33均位居第一。在交互式视频生成方面研究团队为平滑过渡、硬切换和场景召回三种模式各构建了64个六幕60秒视频的评测集。每幕10秒分别用GPT生成六段相互关联的场景描述作为提示词。不使用任何微调的情况下Echo-Forcing在场景召回模式上将文本对齐度从∞-RoPE的29.47提升至32.58主体一致性从79.31提升至83.11背景一致性从78.39提升至81.57。在硬切换模式上文本对齐度达到33.67高于∞-RoPE的32.63画质也从67.79提升至69.64。基于LongLive微调底座的版本进一步验证了Echo-Forcing的有效性相比LongLive基础版平滑过渡文本对齐度提升2.39分27.38→29.77硬切换提升3.68分30.59→34.27场景召回提升4.02分28.56→32.58。自动评测之外研究团队还邀请了18名普通志愿者进行主观评分。参与者用1到5分的量表对长视频和交互视频分别从文本对齐度、主体一致性、运动流畅度和整体视频质量四个维度进行评价且不知道各视频对应哪种方法。在长视频主观评测中Echo-Forcing在所有维度均获最高分文本对齐度3.52对比最优3.24运动流畅度3.64对比最优3.16视频质量3.41对比最优3.34。在交互视频主观评测中Echo-Forcing同样获得最高文本对齐度3.80、运动流畅度3.78和视频质量3.68。值得关注的是这些主观评测结果与自动评测结果方向高度一致说明Echo-Forcing带来的改善不只是数字游戏而是真实反映在人类观看体验中的质的提升。八、消融实验每个设计细节都有充分理由研究团队对Echo-Forcing中每一个关键设计选择都进行了严谨的消融实验逐一验证其必要性。关于双向滚动策略固定不更新的静态锚点虽然稳定但动态度极低动态度评分仅有27.08单向正向滚动能将动态度提升至42.50单向反向滚动达到42.08双向交替滚动在保持动态度47.59最高的同时背景一致性也达到97.17最高实现了稳定性与活跃度的最佳平衡。关于缓存预算分配当把所有预算都用于锚点15个锚点0个压缩帧时主体一致性很高但动态度只有41.04把大量预算给压缩历史6个锚点9个压缩帧时画质有所提升但时序稳定性下降默认的12锚点加3压缩帧方案在各指标间取得最佳均衡尤其是动态度达到47.59同时保持高背景一致性97.17。关于漂移门控相位压缩完全去掉幅度补偿项时动态度从47.59大幅降至35.31只使用幅度补偿但不加漂移门时背景一致性从97.17降至96.13因为不受限制的幅度补偿会错误放大噪声历史完整方案带漂移门的幅度补偿同时实现了最高的背景一致性97.17、最高的运动流畅度98.79、最高的时序稳定性98.28和最高的动态度47.59。关于漂移门灵敏度系数λλ1时对漂移反应太迟钝动态度降至36.35λ3时对漂移反应过度抑制了过多有用的历史信息动态度降至34.79λ2是最佳取值各项指标均衡最优。关于场景召回帧的设计没有任何历史记忆时主体一致性74.97使用第一帧76.14使用评分最高的关键单帧76.49使用融合5帧的Scene Recall Frames方案则大幅提升至83.39。多帧融合的信息增益非常显著。关于记忆衰减策略不做衰减时文本对齐度25.74固定衰减率0.90时26.08固定衰减率0.75时26.44固定衰减率0.50时27.34差异感知自适应衰减达到29.77比最好的固定衰减高出2.43分而且同时提升了主体一致性和背景一致性证明了空间自适应遗忘的根本优越性。九、计算开销聪明的设计克制的代价Echo-Forcing是一个完全不需要重新训练AI模型的方法训练免费这意味着它可以直接插到现有的视频生成系统上使用无需修改模型权重也不需要任何额外的训练数据或训练时间极大降低了实际应用的门槛。在计算开销方面Echo-Forcing的额外操作复杂度是O(Ncand M B)三项分别对应相位压缩的候选集大小、场景召回候选帧数量和固定缓存预算均为常数不随视频总长度增长。也就是说生成一段5分钟的视频和一段1小时的视频额外开销完全相同不会随着视频变长而变重。与Deep-Forcing相比Echo-Forcing的压缩历史区域更小3帧对比9帧选择方式更轻量所以在所有使用压缩历史的方法中生成速度最快15.71帧每秒对比15.65帧每秒。与LongLive的高速度20.70帧每秒相比虽有差距但LongLive之所以快主要是因为其活跃缓存窗口更小仅12帧以更大的长期记忆损失换取了速度而Echo-Forcing使用完整的21帧本地窗口提供了更丰富的上下文支持。归根结底Echo-Forcing给视频生成领域带来的变化可以用一句话概括让AI从一个健忘的讲故事者进化成了一个有条不紊管理着多层记忆的专业导演。它不仅仅让视频更长更重要的是让视频真正具备了应对复杂剧情结构的能力——保持稳定的世界观、灵活响应场景切换、精准召回历史场景、妥善清除过时记忆。这套系统的四种交互模式和三重核心机制构成了一个完整的解决方案而非对某个单一问题的临时修补。对于视频创作者来说这意味着AI生成工具距离真正能讲故事的目标又近了一步。对于AI研究者来说这项工作揭示了一个被长期忽视的关键问题——记忆管理不是一个辅助性问题而是交互式长视频生成的核心瓶颈值得被专门、认真地对待。有兴趣深入了解这套系统的读者可以通过arXiv:2605.16003查阅完整论文研究团队也已在https://github.com/mingqiangWu/Echo-Forcing公开了代码。QAQ1Echo-Forcing需要重新训练AI视频模型吗A不需要。Echo-Forcing是一种完全训练免费的方法可以直接插到现有的自回归视频生成系统上使用不修改任何模型权重也不需要额外的训练数据或训练时间这让它能够较方便地被应用于已有系统。Q2Echo-Forcing支持哪几种视频生成模式AEcho-Forcing支持四种模式长时程稳定生成单场景持续生成几分钟以上、平滑过渡场景缓慢演变、硬切换蒙太奇式场景突变以及长距离场景召回回到之前出现过的场景如A-B-C-A-B-C结构。用户可以手动打标签指定模式也可以让系统根据提示词相似度自动判断。Q3Echo-Forcing的场景召回帧是什么原理A场景召回帧通过从每个历史场景中选取5帧候选画面对画面中每个空间位置独立进行加权融合生成一张兼顾多帧信息的精华速写存入记忆池。需要召回某个场景时直接取用相比单帧方案主体一致性评分从76分左右大幅提升至83.39分。