把VLM塞进隐式世界模型,港大小鹏机器人新框架让机器人长出物理直觉
DIAL团队 投稿量子位 | 公众号 QbitAI机器人的大脑架构之争正在从二选一走向融合。VLM路线擅长语义推理VAM路线擅长预测物理世界但两者各有短板。前者对物理规律缺乏直觉后者训练和推理成本居高不下。最近的折中方案是给VLM外挂一个视频生成模型来预测未来帧。但额外模块带来的计算开销和工程复杂度依旧不小。有没有可能在一个统一的端到端框架里既保留VLM的语义推理能力又让它拥有预测未来的物理直觉还不用额外生成像素级视频香港大学、小鹏机器人及北卡罗来纳大学教堂山分校的研究团队刚刚给出了他们的答案:一个名为DIALDecoupling Intent and Action via Latent World Modeling的全新端到端VLA框架。核心思路是让VLM在自己原生的特征空间里做隐式世界建模不外挂模型不生成像素直接在RoboCasa仿真基准和真实人形机器人部署中拿到优异性能。让VLM在决策中发挥更大作用在现有的端到端VLA架构中一个普遍存在的局限是往往将VLM主要视作一个大型的多模态特征提取器直接将其输出的视觉-语言特征映射到底层的连续动作上。这种范式带来了两个挑战:认知潜力利用不充分。 未能充分发挥VLM在高级逻辑决策中的核心作用。训练稳定性不足。 直接使用底层的高频动作信号端到端地更新庞大的VLM参数容易导致训练不稳定甚至引发语义表征的退化。模型易于陷入视觉表象与动作之间的浅层统计关联而未能真正建模交互背后的物理因果。面对这一困境DIAL框架提出了一种更为彻底且优雅的解耦思路。借鉴认知科学中的双系统理论不仅让强大的VLM直接在其原生的ViT特征空间中进行轻量化的隐式世界建模Latent World Modeling更关键的是它将这种隐式视觉预见构建为一个可微的结构化瓶颈。通过这一设计DIAL严格地将底层运动控制锚定在了VLM的高级意图之上。这种架构有效缓解了联合优化过程中的表征崩溃使得模型能够高效吸收跨具身的人类数据以实现强大的泛化并在真实的物理世界中更为稳健地驾驭复杂的多阶段协同任务。双系统协同、可微意图与两阶段优化DIAL架构将复杂的具身控制任务合理分解为两个协同工作的模块并通过连续的特征空间将其连结:System-2大脑原生特征空间中的意图预见在接收到当前观测画面和语言指令后基于VLM的System-2不再直接输出底层动作而是去预测任务完成后的隐式视觉特征。由于这种预测是在VLM原生的ViT空间中进行的它天然适配VLM的语义表征不仅降低了预测的难度而且这些特征本身就保留了丰富的语义结构信息。这一预测过程显式地编码了VLM的高级意图。System-1小脑基于隐式逆动力学的动作生成System-1是一个轻量级的动作策略网络。目标非常明确作为隐式逆动力学模型Latent Inverse Dynamics Model对比当前的视觉特征与大脑预测的未来特征计算出为了实现这一状态转移所需的精确运动指令。从解耦预热到端到端协同的两阶段训练为了避免直接联合优化带来的梯度干扰DIAL采用了一种稳定的两阶段训练策略:第一阶段解耦预热。System-2和System-1分别独立训练。System-2仅通过真实未来画面的特征作为监督学习预测物理动态System-1则在真实未来特征的指导下专心学习从感知到精准动作的映射。第二阶段端到端协同。打通管线System-1开始使用System-2预测的隐式意图生成动作。动作执行的误差梯度能够稳定地回传至VLM促使VLM预测的特征进一步演变为真正服务于下游执行的面向动作感知Action-aware的隐式意图表征。复杂任务的稳定执行与泛化适应研究团队将DIAL部署至高自由度的小鹏IRON-R01-1.11人形机器人上验证了模型在两类任务中的表现:1、跨具身学习任务。包含抓放Pick Place与倒水Pouring两个基础操作任务混合利用人类演示及机器人本体数据进行训练。2、多阶段协调任务。包含双手交接与放置Handover Shelving以及垃圾清扫与倾倒Trash Collection Emptying两个长程任务仅使用机器人本体轨迹进行训练。在真机部署中这种基于隐式视觉预见的结构化引导机制展现出了极强的鲁棒性。特别是在多阶段任务中隐式意图为模型提供了清晰的视觉路线图引导机器人顺畅完成子任务切换有效避免了传统模型容易出现的动作死循环例如在垃圾已扫入簸箕后仍重复清扫动作却不倒垃圾。此外模型在抗背景干扰、组合目标消歧等OOD场景下也表现出了良好的适应能力。实验分析数据效率、规模扩展与可解释性为了深度剖析DIAL架构为何能取得上述优异的部署效果研究团队进行了详尽的定量与定性分析。分为三个层面——显著提升的数据利用效率在包含24个任务的RoboCasa GR1人形机器人桌面仿真基准测试中DIAL取得了平均70.2%的任务成功率超越了该基准上公开的最优基线模型。更为突出的是在严格的少样本设置下DIAL仅需10%的训练数据量即可达到58.3%的成功率击败了使用全量数据训练的最优基线方法展现了结构化隐式意图瓶颈所带来的强归纳偏置极大提升了模型的数据学习效率。借助人类数据实现系统级规模扩展利用人类数据来扩展模型能力是当前具身智能领域的热点方向。得益于功能解耦的设计DIAL能够有效跨越异构数据实现强大的全系统规模扩展。通过将人类的姿态对齐到机器人的动作空间双系统能够共同从多样的人类动作数据如EgoDex中汲取养分System-2负责从人类视频中提取通用的任务逻辑而System-1则从人类动作标签中蒸馏通用的运动先验。将这种操作知识从人类迁移到机器人身上后DIAL在分布外泛化能力上获得了巨大的提升:1、仿真环境增益。引入多样的抓放pick place任务人类数据后模型应对未见过的物体类型成功率从34.8%提升至41.1%应对未见过的容器组合成功率从53.0%提升至58.7%。2、真机环境增益。在真实世界中人类数据的价值更加凸显。消融实验显示如果去除相关任务的人类数据机器人在面临实例级迁移例如抓取倒水任务中未见过的异形瓶子时成功率会直接从60%骤降至10%。这一对比充分证实通过吸收跨具身的人类操作数据是帮助模型建立稳健物理常识、提升泛化上限的有效路径。可解释性验证隐式预见的有效性为了理解System-2大脑与System-1小脑之间究竟传递了怎样的信息研究人员利用PCA主成分分析降维对隐式特征进行了可视化分析。将高维特征映射为RGB颜色后可以发现System-2预测的特征图Predicted Foresight在任务相关区域如目标物体和目标容器与真实未来状态Ground-Truth Future展现出了高度的结构一致性。进一步观察特征差异热力图Predicted Change预测特征与当前观测特征的差异区域精确锁定了即将发生物理交互的部位。这表明DIAL是真正在其原生语义空间中生成了一份具有实际物理导向的连贯视觉路线图。总结与展望DIAL框架通过可微隐式意图瓶颈提出了一种解耦认知决策与底层执行的VLA新范式。长远来看DIAL揭示了构建通用底座模型的一条极具潜力的路径如果能将这种隐式世界建模机制直接融入VLM的原生预训练任务中利用海量的互联网人类视频我们将有望培育出天生具备物理动力学直觉的视觉语言大模型。这不仅能从底层弥合语义推理与实体控制之间的鸿沟更为具身智能提供了一个真正理解物理规律的认知底座。以此为基础DIAL的解耦设计为这种演进提供了一条高度模块化的迭代路径。在这种即插即用的范式下一旦底层动作专家训练成熟未来就可以随着VLM能力的进化而无缝升级机器人的大脑而无需重训复杂的运动管线。这种模块化的协同将为构建新一代通用、可扩展且持续进化的具身智能体铺平道路。项目主页https://xpeng-robotics.github.io/dial/代码下载https://github.com/xpeng-robotics/DIAL