- Helix: A Vision-Language-Action Model for Generalist Humanoid Control
- TL;DR
- Method
- Motivation
- System 2 (S2,慢系统)
- System 1 (S1, 快系统)
- Data
- Experiment
- 效果可视化
- 总结与思考
- 相关链接
Helix: A Vision-Language-Action Model for Generalist Humanoid Control
link
时间:25.02
单位:Figure AI
相关领域:Robotics
项目主页:https://www.figure.ai/news/helix
TL;DR
提出一个称为Helix的VLA模型,一次性预测全身35-DoF自由度的action,架构上使用快慢系统,效果上能够多机器人协作,操控即使未见过的物体。
Method
Motivation
参考下图Figure1:之前的方案如果想教机器人一个新技能,需要 数以千计的演示轨迹数据 + 一个PHD模型训练。本工作希望通过人类语言直接教会机器人新技能,从而提升机器人学习新技能的速度,降低成本。


System 2 (S2,慢系统)
以7-9HZ低频运行,提升场景与语言理解能力,使机器人在各种context与未见过物体上具有较好泛化性。
模型架构:以一个7B的互联数据预训练的开源模型为pretrain模型,输入视频流及本体自由度信息(Robot State),并组合Language中技能描述相关的特征。最终融合为一个任务相关的latent vector。
System 1 (S1, 快系统)
将潜在语义表征转换为200HZ的高精连续控制信号。
模型架构:以一个在仿真环境预训练的80M Encoder-Decoder的Transformer为预训练模型,输入视频流及本体自由度信息(Robot State),并与S2的latent vector沿序列方向拼接,预测上半身所有自由度(看Demo视频下半身似乎一直不动)。
Data
使用多人遥操的方式构建数据集500小时数据集,并将Video送入VLM模型用来生成对应的Language指令信息 (Prompt: What instruction would you have given the robot to get the action seen in this video?)
Experiment
- 实验表明机器人可以成功操作新的物品,而不需要重新训练。
- 两个机器人使用相同模型weights可以相互协作,只需要给它们注入不同的Propmts(例如下面示例)。
They achieve coordination through natural language prompts like "Hand the bag of cookies to the robot on your right" or "Receive the bag of cookies from the robot on your left and place it in the open drawer" (see Video 4).
效果可视化
参考主页中视频,可以完成的任务有:开冰箱取水果,两个机器人相互传递物品,收拾桌面,从桌面上抓取指定物品
Helix picks and places items in various containers, operates drawers and refrigerators, coordinates dexterous multi-robot handovers, and manipulates thousands of novel objects.
总结与思考
- 将目前的 示例数据 + FT 的机器人教学范式 升级为 language-to-action 指令教学范式,大大提高学习任务的泛化性。
- 但language教学通过语言描述比较难描述清楚动作,实际使用过程可能会有一定的歧义。
- 本工作没有开源模型或者训练代码,真实场景效果实测如何还有待进一步观察。
相关链接
https://www.zhihu.com/question/12870183381/answer/108430023423
https://zhuanlan.zhihu.com/p/25263273644
