当前位置: 首页 > news >正文

[PaperReading] Helix: A Vision-Language-Action Model for Generalist Humanoid Control

目录
  • Helix: A Vision-Language-Action Model for Generalist Humanoid Control
  • TL;DR
  • Method
    • Motivation
    • System 2 (S2,慢系统)
    • System 1 (S1, 快系统)
  • Data
  • Experiment
  • 效果可视化
  • 总结与思考
  • 相关链接

Helix: A Vision-Language-Action Model for Generalist Humanoid Control

link
时间:25.02
单位:Figure AI
相关领域:Robotics
项目主页:https://www.figure.ai/news/helix

TL;DR

提出一个称为Helix的VLA模型,一次性预测全身35-DoF自由度的action,架构上使用快慢系统,效果上能够多机器人协作,操控即使未见过的物体。

Method

Motivation

参考下图Figure1:之前的方案如果想教机器人一个新技能,需要 数以千计的演示轨迹数据 + 一个PHD模型训练。本工作希望通过人类语言直接教会机器人新技能,从而提升机器人学习新技能的速度,降低成本。
image

image

System 2 (S2,慢系统)

以7-9HZ低频运行,提升场景与语言理解能力,使机器人在各种context与未见过物体上具有较好泛化性。
模型架构:以一个7B的互联数据预训练的开源模型为pretrain模型,输入视频流及本体自由度信息(Robot State),并组合Language中技能描述相关的特征。最终融合为一个任务相关的latent vector。

System 1 (S1, 快系统)

将潜在语义表征转换为200HZ的高精连续控制信号。
模型架构:以一个在仿真环境预训练的80M Encoder-Decoder的Transformer为预训练模型,输入视频流及本体自由度信息(Robot State),并与S2的latent vector沿序列方向拼接,预测上半身所有自由度(看Demo视频下半身似乎一直不动)。

Data

使用多人遥操的方式构建数据集500小时数据集,并将Video送入VLM模型用来生成对应的Language指令信息 (Prompt: What instruction would you have given the robot to get the action seen in this video?)

Experiment

  1. 实验表明机器人可以成功操作新的物品,而不需要重新训练。
  2. 两个机器人使用相同模型weights可以相互协作,只需要给它们注入不同的Propmts(例如下面示例)。

They achieve coordination through natural language prompts like "Hand the bag of cookies to the robot on your right" or "Receive the bag of cookies from the robot on your left and place it in the open drawer" (see Video 4).

效果可视化

参考主页中视频,可以完成的任务有:开冰箱取水果,两个机器人相互传递物品,收拾桌面,从桌面上抓取指定物品

Helix picks and places items in various containers, operates drawers and refrigerators, coordinates dexterous multi-robot handovers, and manipulates thousands of novel objects.

总结与思考

  • 将目前的 示例数据 + FT 的机器人教学范式 升级为 language-to-action 指令教学范式,大大提高学习任务的泛化性。
  • 但language教学通过语言描述比较难描述清楚动作,实际使用过程可能会有一定的歧义。
  • 本工作没有开源模型或者训练代码,真实场景效果实测如何还有待进一步观察。

相关链接

https://www.zhihu.com/question/12870183381/answer/108430023423
https://zhuanlan.zhihu.com/p/25263273644

http://www.aitangshan.cn/news/263.html

相关文章:

  • OI集训 Day26
  • RESTful 风格(详细介绍 + 案例实现)
  • 如何用 AI 智能体开启副业之路?零基础入门指南
  • 休息一天
  • 2025.08.11 杭电8
  • 提升LangChain开发效率:10个被忽视的高效组件,让AI应用性能翻倍
  • 更不是SaaS终结者
  • MD5加密算法详解:原理、实现与应用
  • Kafka生产者事务机制原理 - 指南
  • 为什么数据库连接很消耗资源?
  • 题解:[JOISC 2022] 京都观光
  • 2025.8.11
  • 2025-08-10 模拟赛总结
  • Day40
  • 2025.08.08 HDU 多校ACM
  • Hexo + NexT主题美化GitHub博客
  • 家用机器人指令跟随训练新数据集发布
  • 【2025.8.11】模拟赛
  • STL set、map
  • 今日总结
  • 8.10XS模拟赛
  • 企业经营分析指南:从供产销研运5大维度,用数据找准优化方向 - 智慧园区
  • 软工8.11
  • 补题祭day1
  • 2-SAT 学习报告
  • ces
  • day38
  • CSP-J 模拟1解析
  • 20250811
  • 《Effective C++》(1,2)