MotuBrain:一种用于机器人控制的高级世界动作模型
26年4月来自生数公司MotuBrain团队的论文“MotuBrain: An Advanced World Action Model for Robot Control”。Motus [5] 建立一种统一的“世界-动作”建模范式将视频与动作纳入同一个生成式框架中进行建模借此策略建模、世界建模、视频生成、逆动力学以及视频-动作联合预测均成为了同一模型下的不同推理模式。此外该工作还表明若结合 UniDiffuser 风格的连续多模态建模技术与“混合Transformer”Mixture-of-Transformers设计世界-动作模型便能兼容并吸收异构的多模态数据从而不再局限于特定具身形态embodiment的任务轨迹数据。基于这一基础本文提出 MotuBrain。与 Motus 一样MotuBrain 采用 UniDiffuser [2] 技术对视频与动作这两种连续模态进行联合建模与调度同时它利用一种“三-流“ Transformer 混合体架构将视频生成、动作建模及语言条件控制功能整合于同一系统之中。这种统一的建模范式再次使得同一模型能够支持针对五种分布的推理任务即“视觉-语言-动作”策略建模、世界建模、视频生成、逆动力学以及视频-动作联合预测。更为重要的是它保留统一“世界-动作”建模范式的核心优势该模型能够从更为广泛的多模态数据集中进行学习其中包括仅含视频而无动作标签的数据、缺乏明确任务语言描述的交互数据以及从不同具身形态机器人上采集到的异构机器人轨迹数据。MotuBrain 进一步将这一范式拓展至多个具有重要实际应用价值的方向。它引入一种统一的多视角表征机制能够支持在不同相机布局下处理任意数量的相机视角输入从而摆脱对固定视觉输入格式的依赖。它采用独立的文本处理流旨在将高层语义信息与底层控制指令进行更为紧密的耦合这一设计不仅使“指令跟随”成为动作生成过程中的显性环节同时也显著提升模型的语义理解能力。此外它还采用跨具身形态统一的动作表征方式使模型能够捕捉并习得具有泛化能力的控制规律从而避免因过度拟合单一机器人动作格式而导致的局限性。除了在架构设计与预训练阶段所做的创新之外MotuBrain 还针对长时程、真实世界的控制任务设计一套量身定制的后训练与部署方案通过“自回归扩散展开”autoregressive diffusion rollout技术实现在时间维度上具有扩展性的任务执行能力借助 V2A 风格的非对称依赖机制模型得以在无需显式生成未来视频画面的前提下仅凭动作信息即可进行推理与决策最后通过采用实时分块式的闭环执行策略有效消除异步控制过程中可能出现的边界不连续现象。最后构建一套面向系统的推理栈涵盖去噪步数缩减、支持 CUDA Graph 的高效编译与执行、FP8 量化以及 DiT 缓存等技术这些技术协同作用实现了相对于朴素基线超过 50 倍的端到端加速从而使“大世界”动作模型在实时机器人部署中具备实用性。1 模型架构MotuBrain 首先采用 UniDiffuser [2] 来联合建模并调度视频和动作这两种连续模态从而在一个统一的生成框架内捕获它们之间所有的交互模式。因此仅需一次训练过程即可支持对五种分布进行推理视觉-语言-动作策略建模、世界建模、视频生成、逆动力学以及视频-动作联合预测这些任务的具体形式如表 1 所示。基于这一统一的视频-动作主干网络MotuBrain 引入一种三-流 Transformer 混合架构Mixture-of-TransformersMoT包含文本流、视频流和动作流。文本流充当条件分支其隐状态参与 Transformer 的注意计算但不对文本 token 应用输出头。维持独立的文本流也有助于提升模型的语义理解能力和指令遵循能力。视频流和动作流均采用流匹配flow matching方式进行训练分别预测视频隐状态和动作 token 的速度场。如图所示MotuBrain架构总览模型的输入包括文本 token、由 Vidu VAE 编码得到的条件图像隐状态、带噪声的未来视频隐状态以及带噪声的动作 token。条件图像被表示为视频隐状态序列中的首帧并在视频流中采用“教师强制”teacher-forcing的方式进行处理而其余的视频隐状态和动作 token 则分别由视频流和动作流进行去噪处理。跨模态交互是通过对视频、动作和文本 token 执行联合注意计算来实现的。为了避免在所有层中都使用全视频-动作联合注意借鉴 HBridge [35] 的设计采用“H 型桥接”H-bridge架构。具体而言全 V-A 联合注意仅应用于 Transformer 层序列中间的 50% 层级中而底部和顶部的各 25% 层级则采用解耦注意机制。在这些解耦层中视频 token 与动作 token 被独立处理彼此之间不进行联合注意计算。这一设计不仅降低密集跨模态注意的计算开销并提升效率还保留浅层和深层中各模态特有的表征信息避免向每一层注入过多的模态无关信息与此同时该设计依然允许模型在中间层实现语义对齐与策略落地policy grounding。对于多视角输入每个视角均由 Vidu VAE 独立编码随后在 token 层面进行拼接整合。通过利用 3D RoPE仅沿空间维度引入依赖于视角的偏移量而保持时间维度不变。这有效地将不同的视角映射到共享空间位置空间中的不同区域从而无需修改骨干网络架构即可无缝支持任意数量的相机视角。2 预训练预训练数据遵循一种四层数据金字塔结构 [5]其组织方式从广泛的视觉多样性逐步过渡到特定具身embodiment-specific的控制信号互联网视频、第一人称视角视频、异构具身数据以及特定具身数据。其主要动机在于最大化数据利用效率。底层利用大规模互联网视频来训练视频生成模型 Vidu [3]该模型构成 MotuBrain 的基础模型。第二层引入第一人称视角视频这些视频提供更贴近具身操作的第一人称交互模式及手物交互动态。第三层采用从不同机器人平台、任务及场景中收集的异构具身数据。在设定中该层仅使用双臂机器人数据。顶层由在目标机器人配置上收集的特定具身数据组成旨在进一步使模型与最终的动作空间、运动学特性、相机设置以及部署环境分布相适配。这一层级结构体现 MotuBrain 的核心设计原则模型应尽可能从异构多模态数据中进行学习而非将监督信号局限于单一且狭窄的数据格式。基于预训练好的 Vidu 模型权重 [3]开展两个阶段的预训练分别对应于数据金字塔中的第二层和第三层。在第一阶段中仅利用第一人称视角视频及异构具身数据来训练视频分支而保持随机初始化的动作分支不变。因此该阶段的优化目标仅包含视频损失项。此阶段旨在将源自互联网规模的视频先验知识适配至具身操作任务中并构建一个能够理解及预测双臂交互动态的视频世界模型。为了增强模型对不完美视觉条件输入的鲁棒性在整个训练流程中包括第一阶段、第二阶段以及非自回归的后训练阶段——但不包括自回归策略设定阶段均沿用 LingBot-VA [24] 所采用的“噪声条件”noisy-conditioning策略。此外针对多视图数据在预训练阶段以 0.1 的概率随机丢弃辅助视图从而使模型能够更好地适应相机视图数量的变化以及不完美的视觉观测。3 后训练虽然预训练旨在利用广泛且异质的数据构建统一的世界动作模型但后训练Post-training的重点在于使模型适应特定的具身形态embodiment。从预训练第二阶段结束后获得的检查点checkpoint出发并在针对特定具身形态的数据集上对其进行微调。在此阶段考虑两种后期训练设置即非自回归Non-AR设置和自回归AR设置并在这两种设置下分别进行训练。第1阶段、第2阶段、Non-AR设置以及AR设置中所使用的注意掩码attention masks已汇总于图2中(a) 第一阶段预训练仅更新视频分支(b) 第二阶段预训练对语言、条件视频、视频及动作标记应用全面的联合注意力© 非自回归后训练禁用“视频到动作”的注意机制(d) 自回归后训练对按时间顺序排列的视频及动作token应用因果掩码。这两种后期训练设置的主要区别在于序列分解方式和注意掩码策略。在Non-AR设置下模型通过单次前向传播对整个观测窗口内的所有视频和动作tokens进行去噪处理其中o_t 表示第 t 步的观测z_t E(o_t) 表示其对应的VAE潜表示。具体而言VAE将每 tau 帧连续的原始视频帧在时间维度上压缩为一个单一的潜在帧而动作流则以每原始视频帧 f_va 个动作的频率进行运作。因此每一个潜帧对应着 S_a f_va tau 个动作tokens以及来自“教师强制”teacher-forced的过去观测所产生的干净视频标记再加上当前目标数据块chunk中带有噪声的视频和动作tokens。与Non-AR后期训练不同AR设置不会对作为条件的帧应用“噪声条件增强”noisy-conditioning augmentation策略。对于第 k 个数据块其中的tokens只能关注来自前序数据块的干净视觉上下文而绝不能关注未来数据块的内容。值得注意的是AR模型不涉及干净的动作tokens因为引入干净动作tokens会破坏所构建的统一的“相对-末端执行器”relative-EEF动作表示体系。在实际部署时模型将以序列化的方式进行推理展开rollout新观测的视频帧将被用作下一个数据块的干净上下文信息。为了使后期训练过程与实际部署时的运行机制更加契合在上述两种运行模式中均采用V2A风格的注意机制。在这种注意模式下动作token可以关注视频token和语言token而视频token则绝不关注动作token。结合 UniDiffuser 的建模范式其中视频和动作是基于独立的步长进行采样的这种非对称的依赖关系使得在推理阶段使用“仅动作”的后缀成为可能在经过一段简短的联合去噪前缀之后视频流可以被冻结仅由动作流继续更新同时参照已缓存的视觉-语言上下文信息。这一设计旨在提升效率而非改变训练目标在实际应用中它能在不降低任务成功率的前提下显著加速推理过程。动作tokens方面预测 K 个未来的视频隐变量实际上等同于生成 K S_a 个动作这在保持视觉流紧凑的同时实现高频率的控制能力。在非自回归Non-AR的后训练阶段继续对条件帧的隐变量应用与 LingBot-VA 风格一致的“带噪条件增强”技术。这一做法提升模型对带噪条件的鲁棒性并有助于模型从部分受损的观测数据中进行恢复。对于长时程任务采用基于“分块分解”chunk-level factorization的自回归AR建模范式如图 2(d) 所示。将每个任务episode划分为若干个互不重叠的分块并在训练阶段利用“块因果注意掩码”block-causal attention mask对所有分块进行并行处理。输入序列包含语言tokens、条件图像tokens、源自“教师强迫”teacher-forced式历史观测数据的纯净视频tokens以及当前目标分块所对应的带噪视频tokens和带噪动作 tokens。与非自回归后训练不同自回归设置下不对条件帧应用带噪条件增强。对于第 k 个分块其中的tokens仅能参照来自前序分块的纯净视觉上下文而绝不能参照后续分块的内容。值得注意的是自回归模型不包含纯净动作tokens因为引入纯净动作tokens会破坏所构建的统一的“相对末端执行器”relative-EEF动作表征体系。在部署阶段模型以序列化的方式逐步展开推理将新观测到的帧作为下一个分块的纯净上下文输入。为了更好地在后训练阶段与实际部署阶段之间建立对齐在两种运行模式下均采用 V2A 风格的注意机制。在这种注意力模式下动作tokens可以参照视频tokens和语言tokens而视频tokens则绝不参照动作tokens。结合 UniDiffuser 的建模范式——即视频与动作分别采用独立的离散时间步进行采样——这种非对称的依赖关系使得在推理阶段仅使用“动作专属”的后缀成为可能在经历一段短暂的视频与动作联合去噪前缀之后视频流即可被冻结仅由动作流继续更新同时参照此前缓存的视觉-语言上下文信息。这一设计旨在提升效率而非改变训练目标在实际应用中它能够在不降低任务成功率的前提下显著加速推理过程。4 推理推理优化世界-动作模型World-Action ModelsWAMs面临的一个实际挑战是推理延迟在许多扩散步长中联合对高维视频隐变量和动作隐变量进行去噪将现代生成建模中最耗时的两类计算耦合在了一起若不加优化地直接部署WAMs 的运行速度通常远低于高频操控所需的控制速率。为了解决这一问题采用并扩展一系列优化手段。至关重要的是在 RoboTwin2.0 平台上验证这种加速效果本质上是“无损”的在优化前后的配置下平均任务成功率的波动幅度仅在百分之几以内这表明性能提升源于剔除真正冗余的计算而非以牺牲模型保真度为代价。噪声采样。在训练阶段针对视频和动作这两种模态分别采用基于信噪比SNR的时间步采样策略。具体而言将视频模态的timeshift参数设为 6将动作模态的timeshift参数设为 1。这一设置使得视频模态的时间步更有可能从噪声较高的区域被采样而动作模态的时间步则被采样得更为均匀。其结果是模型在面对充满噪声的视觉输入时能够更鲁棒地预测出准确的动作。这一改进不仅提升模型的鲁棒性还加速收敛过程从而允许将推理步数从 50 步减少至 30 步且不导致性能下降。编译优化。用torch.compile工具对推理计算图进行优化并对算子进行融合以降低重复去噪过程所产生的额外开销。由于模型已被重写为单 GPU、纯 PyTorch 架构的推理模型其核心的 Transformer 计算部分可以直接在推理执行时进行编译。这项优化主要提升采样过程中反复执行的 DiT 前向计算的执行效率。DiT 缓存。采用一种类似 DreamZero [36] 的 DiT 缓存策略旨在利用去噪步长之间存在的时序冗余信息。设 v_t 表示在第 t 个去噪步长中预测出的速度值计算并度量两个连续预测值之间的相似度 s_t。当相似度 s_t 大于预设阈值 gamma 时将跳过随后的一小部分 DiT 计算即不再执行 DiT 前向推理转而利用近期历史数据对被跳过的预测结果进行近似估算。该缓存机制既可应用于视频速度预测也可在“仅动作”模式下应用于动作速度预测且在每一次推理调用或每一个数据分块chunk的处理开始时该缓存都会被重置。FP8 量化。通过 FP8 量化进一步降低 DiT 的推理成本。该实现将符合条件的nn.Linear层替换为 FP8 线性层。将权重存储为float8_e4m3fn格式采用逐张量缩放在运行时将激活值动态量化为 FP8并通过torch._scaled_mm执行矩阵乘法运算最终以原始计算数据类型返回输出结果。为了满足内核对齐的要求输入或输出维度无法被 16 整除的层将被跳过。这项优化主要针对注意Attention和 MLP 模块中的大型线性投影层旨在降低支持 FP8 运算的 GPU 上的内存带宽需求及 GEMM 运算成本。由于量化操作是在加载检查点之后、编译之前执行的因此编译后的计算图将直接追踪这些已量化的线性算子。V2A 风格推理。对于采用 V2A 注意机制训练的模型视频流被限制为无法对动作Tokens执行注意计算而动作流则依然可以对视觉及语言上下文执行注意计算。这种非对称的依赖关系能够采用一种高效的推理调度策略。具体而言不再在所有的采样步长中对视频流与动作流进行联合去噪而是采用一种“短时联合去噪前缀”与“仅对动作流去噪的后缀”相结合的模式。在第 N 步之后视频隐变量video latent被冻结随后执行一次“视频-文本”分支以便为固定的视觉-语言上下文构建逐层的缓存Kkeys和Vvalues。随后的去噪步骤仅更新动作tokensaction tokens动作查询action queries将同时对缓存的视频/文本KV对以及自身的动作KV对执行注意计算。这一设计消除采样过程后半段中重复的视频流计算同时保留与 V2A 风格模型相同的注意语义。结合上述其他的推理优化措施这一设计使模型能够达到 11 Hz 的推理频率超越典型的人类反应速度。动作平滑。借鉴 DreamZero [36] 的做法MotuBrain 采用动作分块平滑技术以提升执行过程的流畅度。具体而言每个动作分块首先被上采样至其原始时间分辨率的两倍随后利用 Savitzky-Golay 滤波器进行平滑处理最后再下采样回原始分辨率。频率-觉察插值。平滑处理完成后动作序列将根据模型动作频率与底层控制频率之间的比例进行插值。这种频率感知的插值方法能够保留模型预测的时间尺度特性在执行过程中快速的过渡动作依然保持其原有的迅捷性而较为缓慢的运动片段则会被扩展至更长的控制时长中。对于包含不同运动阶段的操纵任务而言这一机制有助于忠实地还原模型所预测的速度曲线。实时推理与执行实时控制对于机器人部署至关重要然而世界动作模型的推理延迟通常不容忽视。因此MotuBrain 将模型推理循环与机器人动作执行循环解耦控制器以目标控制频率执行当前的动作块而世界动作模型则基于最新的观测数据异步生成下一个动作块。然而直接切换至新生成的动作块可能会引入块边界处的不连续性——例如动作回退、速度突变以及高频抖动——因为相邻的动作块可能分别基于不同的观测数据和动作模式生成。为了缓解这种边界失配问题采用一种受 RTC 启发而设计的策略 [7]。当前动作块中尚未执行的部分将被用作下一轮生成的约束条件并在去噪处理之前进行融合具体而言受推理延迟影响的前缀部分被视为“冻结区域”而剩余的重叠动作部分则被用作“软约束”。为了提升在推理和通信延迟波动环境下的鲁棒性MotuBrain 维护一个用于存储近期推理延迟的延迟队列 Q系统将 dˆ_t1 max(Q) 作为对下一个推理请求的保守估计值。这一估计延迟决定“冻结前缀”的长度。融合窗口也会随之进行相应的调整当估计延迟增加时会有更多的步数被视为处于完全受限状态反之当估计延迟减小时会有更多的未来动作被留待由新预测结果进行更新。这一机制使得异步执行过程在面临网络和模型延迟波动时能够表现得更为稳定。