HumanEgo:基于人类第一人称视角数分钟视频的零样本机器人学习
26年5月来自马里兰大学的论文“ HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos”。人类的第一人称视角egocentric视频无需任何机器人硬件即可捕捉丰富的操作演示但由于人类与机器人在视觉外观和运动学特性上存在“具身差异”embodiment gap将这些技能迁移到机器人身上仍极具挑战。HumanEgo 框架通过将人类演示转化为“手-物交互”的实体级表征来弥合具身差异并利用密集的辅助目标训练一种流匹配flow matching策略从而增强来自每条轨迹的监督信号。HumanEgo 具有无需机器人数据、不依赖特定硬件、数据高效以及支持零样本zero-shot人机技能迁移等特点。仅需针对每项任务使用 30 分钟的人类视频数据HumanEgo 就能在四项现实世界任务中实现 92.5% 的平均成功率仅需 15 分钟数据时成功率为 75%其性能比同等时长的机器人遥操作高出 41%并能稳健地实现跨新机器人、新相机视角及新环境的零样本迁移。如图1 所示HumanEgo 从人类的第一人称视角视频中学习机器人策略。人类佩戴 Aria 眼镜采集演示数据左这些第一人称视角视频被转换为以交互为中心的表征并用于训练流匹配flow matching策略中该策略可零样本zero-shot迁移至机器人且不受环境、设置或具体形态的限制右。如图2所示HumanEgo 系统概览。HumanEgo 分四个阶段将人类以自我为中心的视频转化为可部署的双臂操作策略。演示者佩戴 Aria 眼镜记录任务过程通过修复inpainting人类手臂图像并渲染虚拟夹爪来弥合具身差异同时将每个实体相对于其他任务实体的位姿编码为“以交互为中心”的 Token。一种结合三个辅助目标的流匹配flow matching策略用于生成多模态双臂动作。1 自我中心视角数据采集演示者佩戴 Aria Gen1 眼镜 [7]在任意便利的环境下执行目标任务——无需考虑桌面高度、光照条件或背景也无需专门的工作空间或校准步骤如图 11所示。每次演示仅需数秒针对每项任务以 30 Hz 的采样率采集约 30 分钟的人类演示数据。Aria 眼镜非常适合用于从人类视频中进行学习其“机器感知服务”MPS能够提供高质量的 6-DoF SLAM 追踪、经过校准的 3D 手部姿态估计以及同步的自我中心视角 RGB 视频流——所有这些功能均集成于单一轻量级可穿戴设备之中。三角测量Aria Gen1 眼镜没有深度传感器因此通过对跨帧追踪的二维关键点进行三角测量来恢复每个物体的三维位置。将移动的头戴式摄像机视为一个多视图系统其外参由 6 自由度6-DoFAria MPS SLAM 位姿 [7] 标定得出。这要求物体在观测窗口期间保持静止一旦开始操作物体便可自由移动。片段开始前的场景扫描。多视图三角测量要求从差异足够大的视点观察同一个三维点但在操作过程中头戴式摄像机往往几乎静止只有双手在移动导致有效的摄像机基线baseline缩减。因此在每次演示前都加上一个简短的场景扫描步骤演示者保持场景静止缓慢移动头部约 1–2 秒约 30–60 帧——采用水平从左向右平移或向物体前移的方式——然后再进行实际操作。基于二维轨迹的多视图三角测量。对于每个物体首先在扫描的第一帧中使用 Grounding DINO [59] 进行检测利用 SAM2 [60] 进行分割在生成的掩码mask上采样 N 个关键点并使用 CoTracker3 [61] 在整个扫描过程的 F 帧中追踪这些点。2 视觉观测预处理将去畸变后的自我中心视角egocentric帧转换为与具体形态无关embodiment-agnostic的 RGB 观测这一过程分为两步。首先利用 SAM2 分割出人手和手臂并通过 LaMa 图像修复技术 [58] 将其去除从而消除视觉上的形态差异embodiment gap。其次将虚拟夹爪和被追踪物体的关键点渲染到修复后的图像中——这两者均源自空间观测——以此将 6D 位姿信息隐式编码为视觉线索。这种轻量级处理流程弥合视觉形态差异且无需昂贵的域适应或图像转换操作。阶段检测原始 Aria 录像交替包含主动操作片段和非操作片段——例如走向工作区、片段开始前的场景扫描以及任务结束后退。只有操作部分包含清晰的手部与物体交互动态因此运行一个自动阶段检测步骤将每段录像分割为不同的运动学模式并仅保留操作帧用于训练。阶段分类。每一帧被归类为以下五种模式之一(0) MANIP操作——演示者站立不动并主动操作场景(1) FORWARD前进——直线行走(2) ROTATE旋转——原地头部/身体旋转例如场景扫描(3) TRANSITION过渡——相邻模式之间的短时缓冲(4) FINISHED结束——录像末尾持续的静止保持状态。分割信号与训练数据选择。动作阶段是基于两路数据流计算得出的来自 Aria SLAM 的 6 自由度头部轨迹对应身体运动以及来自手部追踪器的 3D 手部轨迹对应操作运动。当头部线速度和角速度同时低于阈值v_stop 0.03 m/sw_stop 0.15 rad/s并持续至少 15 帧时当前帧被归入 MANIP操作阶段ROTATE旋转阶段要求 ||ω_head|| 0.10 rad/s 且 ||v_head|| 0.08 m/sFORWARD前进阶段包含剩余的线速度较高的帧TRANSITION过渡阶段用于填充模式切换时的 10 帧缓冲区当静止状态持续至少 30 帧时判定为进入 FINISHED结束阶段。此外利用手部运动学数据对 MANIP 阶段进行细化若在 5 帧窗口内手部平均速度超过 0.15 m/s则将该候选帧降级为 TRANSITION 阶段从而将伸展/回缩动作从核心操作阶段中剔除。随后训练流程仅保留 MANIP (0) 和 FINISHED (4) 阶段舍弃 FORWARD、ROTATE 和 TRANSITION 阶段确保场景扫描、导航及模式切换期间的数据不被纳入训练信号。3 空间观测预处理构建显式的实体级空间观测将每个物体及双手均视为一个实体通过追踪双手和物体来获取各实体的 6 自由度6-DoF位姿随后将其相对关系编码为“以交互为中心”的 TokenInteraction-Centric Tokens。手部追踪与运动优化。首先利用 Aria MPS [7] 获得三维手部关键点通过 SLAM 将其转换至世界坐标系并分别对位置和旋转数据进行平滑处理位置采用 Savitzky–Golay 滤波旋转采用指数移动平均EMA。随后将拇指与食指视为一对虚拟平行钳爪如图 12所示从而提取出 SE(3) 末端执行器位姿 T_ee 以及标量抓取参数 g。从手部到夹爪的动作迁移若要将人类以自我为中心的视角egocentric视频视为机器人数据演示中的每一帧都必须包含一个平行夹爪机器人实际可执行的末端执行器目标。然而人手拥有 21 个有关节的关键点其形态与双指夹爪截然不同因此无法直接使用原始手部姿态。为此通过一个简短的运动优化流程利用几个解剖学上稳定的关键点将手部动作重映射retarget为虚拟夹爪的参数——即 6 自由度 SE(3) 姿态加上 1 自由度的抓取标量值。手部关键点提取。基于 Aria MPS [7] 生成的 21 关键点手部骨架进行处理该系统融合立体 SLAM 相机与设备内置 IMU 的数据以恢复每一帧中各关键点在 SLAM 世界坐标系下的 3D 位置。在重映射过程中仅使用每只手上的五个关键点如图 12所示手腕、拇指掌指关节MCP、拇指指尖、食指掌指关节MCP以及食指指尖。运动优化。原始 MPS 关键点数据存在噪声且偶尔会出现丢帧现象若直接用于构建 SE(3) 姿态会导致轨迹抖动或发生翻转。因此执行一个简短的优化流程1置信度掩码Confidence masking——剔除 MPS 置信度低于 0.8 的关键点并丢弃持续时间少于 30 帧的检测片段视为可能的虚假检测2间隙插值Gap interpolation——对于短时间的缺失间隔≤10 帧位置采用线性插值方向采用球面线性插值SLERP进行填充从而确保后续平滑处理接收到的是密集序列3Savitzky–Golay 位置平滑——对五个重映射关键点应用窗口大小为 21、多项式阶数为 2 的 SG 滤波器在去除高频抖动的同时保留与操作相关的加速度特征 (4) EMA指数移动平均姿态平滑——对夹爪坐标系的 X 轴和 Y 轴应用指数移动平均参数设为 αx αy 0.15在每次更新后利用 Gram-Schmidt 过程进行重新正交归一化并强制相邻帧之间的符号一致性以防止出现虚假的 180° 翻转。末端执行器位置。将拇指指尖与食指指尖的中点作为夹爪位置该位置自然对应于平行钳口抓取时的中心点。末端执行器夹爪的朝向。在进行捏取pinch grasp动作时选择一个既准确又稳定的朝向是动作重定向retargeting中的难点两种看似自然的方案均不可行(i) 原始手腕位姿直接采用 MPS 系统的手腕朝向作为夹爪坐标系是不准确的因为解剖学意义上的手腕坐标系与夹爪实际使用的“拇指-食指”动作轴并不重合。(ii) 手腕至指尖中点的连线若将前向轴定义为从手腕指向拇指与食指指尖的中点并将夹爪张合轴定义为从拇指指尖指向食指指尖这种方法在手掌张开时有效但在捏取瞬间会发生退化——此时两指尖几乎重合于同一点导致夹爪张合轴退化为近乎零向量的向量从而使坐标系定义失效。因此改用掌指关节MCP joints来构建夹爪坐标系因为这些关节在整个捏取过程中始终保持明显的间距。夹具孔径。从拇指-食指指尖距离导出 1-DoF 夹具命令 g 。对归一化后的 g 信号进行中值滤波并执行简短的闪烁抑制处理以生成清晰的“开启/关闭”指令流并在部署阶段进行二值化处理。目标跟踪与姿态估计。利用基于文本提示的 Grounding DINO [59] 检测每个目标使用 SAM2 [60] 对其进行分割并从掩码中采样轮廓关键点。基于“以交互为中心”的TokenICT进行实体空间编码。将每个实体的6自由度6-DoF位姿编码为ICT从而同时捕捉其在共享参考系中的位姿以及与双手的空间关系。4 采用密集辅助目标的流匹配策略其策略如图 2 所示接收场景状态 s_t包含 ICT token 和 RGB 图像并生成跨越 K 步时域的双手动作用轨迹 a其中轨迹的每个 D_a 维片段均由双手的 6 自由度6-DoF位姿与二值抓取状态拼接而成。基于流匹配Flow Matching的动作生成。将动作生成建模为一个条件流匹配 [33, 64] 问题利用以 s_t 为条件的 Transformer 解码器对速度场 v_theta 进行参数化并对其进行训练以实现从高斯先验样本到动作目标的传输。密集辅助目标。为了从每一次演示中提取丰富的监督信号引入三个与流匹配flow matching头共享上下文编码器的辅助目标(1) 物体运动L_OM预测受控物体的未来 6-DoF 轨迹从而迫使编码器对受手部动作影响的物体动力学进行建模(2) 2D 轨迹L_2D回归实体轨迹的未来 2D 投影将表征与视觉观测建立联系(3) 潜在一致性L_LC预测 K 步之后的 ICT 状态促使编码器捕捉场景动态。最后将这些目标与流匹配损失结合构成一个统一的优化目标。所有辅助目标均由感知流水线自动生成因此每一次演示都能提供密集的、多任务的信号。这三个目标分别在互补的空间3D 物理空间、2D 视觉空间及潜在空间中预测场景演变赋予共享编码器一个关于手-物交互的轻量级世界模型。此外利用该共享编码器作为多任务正则化器来抑制过拟合这种方法在低数据量场景下带来的性能提升尤为显著。流匹配Flow Matching策略速度场与损失函数。训练一种条件流匹配conditional flow matching[33] 策略该策略将高斯先验 x_0 ∼ N (0, I ) 映射到真实的双臂动作片段 x_1路径为线性路径 x_t (1-t)x_0 tx_1其中流时间 t ∼ U (0, 1)。目标速度为恒定位移 v_target x_1 - x_0流匹配损失是对预测速度计算的均方误差MSE并按维度进行加权位置权重 w_p56D 旋转权重 w_r1抓取 Logit 权重 w_g10。还支持一种最优传输-匹配变型OT-CFM它在计算损失前先在每个小批量mini-batch内求解噪声样本与动作样本之间的匈牙利指派问题从而生成更平直的目标流由于在任务中未发现其具有持续优势因此默认关闭该选项。网络架构。速度场 v_theta 是一个 6 层、8 头8-head的 Transformer 解码器嵌入维度为 384Dropout 率为 0.05。每个动作片段 Token 既通过自注意self-attention关注片段内的其他 Token也通过交叉注意cross-attention关注条件上下文conditioning context。上下文由两路信息构成(i) RGB 帧通过对 240 X 320 的输入应用 16 X 16 的 Patch 嵌入并融合经由小型 MLP 处理的正弦时间嵌入sinusoidal time embedding来构建(ii) 状态 Token即针对每个实体的 ICT Token经线性投影至 384 通道。辅助头Auxiliary heads。三个稠密辅助任务与速度场共享上下文编码器。物体动力学头object-dynamics head预测被操作物体未来的 9 维位姿轨迹并使用权重为 0.5(w_p, w_r) 的 MSE 进行训练2D 视觉预测头2D visual-foresight head通过浅层反卷积堆叠输出三个锚点关键点的 K X 3 X 2 归一化图像坐标损失权重 w_f20此外时间一致性temporal-consistency预测头利用由 w_c [0.1, 1.0] 加权的掩码均方误差masked MSE预测未来 K 步的手部 Token。这三个目标均由感知流水线自动生成因此每段演示都能提供密集的、无需额外标注的多任务信号。其他技巧。两项轻量级训练技巧进一步稳定基于数分钟数据的学习过程。区域注意region attention机制引导图像交叉注意image cross-attention聚焦于当前活跃的操作锚点manipulation anchor具体而言利用锚点在图像上的二维投影坐标 (u_0, v_0)将注意 Logits 与高斯spotlight相乘。在训练过程中通过注入状态噪声来扰动每一个手部 Token即 s ̃_t s_t epsilon其中 epsilon ∼ N(0, Σ_s)并针对位置、6D 旋转及抓取通道分别设定标准差这种做法增强了策略的鲁棒性使其能够应对部署阶段可能出现的微小感知噪声。优化方案。用 AdamW 优化器进行训练基础学习率设为 10-4采用余弦衰减策略包含 200 步预热期最小学习率比率为 0.05批次大小batch size为 32训练轮数epochs为 400。训练中将梯度范数裁剪阈值设为 1.0使用 bfloat16 混合精度并维护权重的指数移动平均衰减率为 0.999以供评估与部署使用。数据增强。为了将有效的训练分布从每个任务仅约40分钟的人类视频数据进行扩展在数据加载器中实时应用了一系列组合增强方法这些方法归纳为三类。(i) 针对RGB流的图像增强。光度抖动概率p0.8会随机扰动亮度±0.20、对比度±0.20和伽马值±0.15添加高斯像素噪声σ0.02以一定概率p0.1将帧转换为灰度图并对HSV色彩空间中的色调hue进行±10的抖动对饱和度saturation进行[0.6, 1.4]范围内的抖动。随机缩放裁剪p0.5操作会选取一个尺度在[0.7, 1.0]、长宽比在[0.9, 1.1]之间的子窗口随后将其调整回网络输入尺寸。此外还会以p0.15的概率应用3×3核的高斯模糊并使用随机擦除p0.5覆盖3到8个黑色遮挡块每个遮挡块覆盖帧面积的5%到20%。(ii) 动作-目标增强。在计算流匹配flow-matching损失之前向动作片段中的每个目标姿态添加高斯噪声进行扰动——平移噪声σ_pos 1 mm旋转噪声σ_rot 0.5°——这有助于对速度场进行正则化从而增强其对标签中微小跟踪噪声的鲁棒性。(iii) 时间维度增强。以p0.5的概率应用子步插值sub-step interpolation即根据随机选取的α值α ∈ [0, 1]对相邻的状态/动作帧进行线性混合从而在不增加额外数据采集成本的情况下有效地提高了时间网格的密度。在四项涵盖“抓取与放置”pick-and-place、多步双臂协同、富含接触交互的推理以及持续旋转控制的真实世界操作任务上对 HumanEgo 进行了评估如图 3 所示。针对每项任务分别描述场景设置、单次试验trial的随机化方式、目标行为以及用于评估主文中每种条件下 40 次试验结果的成功与失败判定标准。1 机器人推理设置除了零样本泛化研究外主论文中的所有真实世界实验均采用图13所示的单一推理设置两台 Trossen WidowX AI 机械臂并排安装在同一个工作台上构成一个双臂操作平台无需在任务间更换硬件即可执行单臂和双臂任务。每台 WidowX AI 机械臂均为 6 自由度DoF平行夹爪机械臂在最大伸展范围下的有效载荷约为 1.5 kg末端执行器重复定位精度为 ±1 mm。视觉输入方面用安装在工作区上方的单个 Intel RealSense D405 相机其 RGB 视频流是 HumanEgo 接收的唯一观测数据。虽然每台 WidowX AI 机械臂都配备了内置腕部相机但特意未将其用于 HumanEgo相比之下机器人遥操作 ACT 基线方法 [28] 则将腕部相机作为其标准观测接口的一部分进行使用。2 Flow Matching 推演与控制ODE 推演。在测试阶段利用固定步长的欧拉Euler求解器对学习到的速度场进行积分共执行 20 个推理步骤从策略加载时采样的一次噪声样本 x_0 ∼ N(0,I) 出发以 Delta t 1/20 迭代更新 x_tDelta t ← x_t v_theta(x_t, t, s_t) Delta t从而在每次重规划的前向传播中生成包含 K50 个步骤的双臂动作序列action chunk。预测结果按维度解包为每只手的位置、6D 旋转表示及抓取 Logit 值其中位置数据利用数据集的均值/标准差进行反归一化旋转数据通过对 6D 表示进行归一化及施密特正交化Gram–Schmidt处理投影回 SO(3) 空间抓取数据则通过 Sigmoid 函数处理。动作序列分块与控制。控制器在每个周期10 Hz进行重规划在历史记录中最多保留一个预测结果并在每个周期执行一个动作。采用步长为 2 的采样间隔对数据块进行降采样使实际执行频率达到 5 Hz同时利用 25 步的前瞻偏移量look-ahead offset控制器可在当前执行索引之前预先查询数据块从而掩盖规划延迟。对于抓取动作采用“视界内任意时刻”any-over-horizon规则只要当前数据块中任一步预测的抓取概率超过 0.6机械爪即刻闭合此外还提供可选的“抓取锁定”grasp-latch模式在首次触发抓取后保持机械爪闭合状态以防止任务执行中途发生意外松脱。平滑处理与安全机制。为消除预测出的 SE(3) 轨迹流中的微小噪声在向机械臂发送目标指令前对位置数据应用指数移动平均EMAα0.5对旋转数据应用四元数球面线性插值SLERP同时采用轨迹重叠混合技术平滑参数为 12以避免连续数据块切换时出现突兀的启停动作。最后设置安全限制机制safety cage将每个周期内的目标位移限制在位置 ≤0.08 m 和旋转 ≤0.02 rad 以内从而防范突发异常值在实验的正常运行过程中未观察到触发该安全限制的情况。实验设置。ICT 接收 3D 手部关键点作为输入因此上游手部追踪器的质量直接影响策略的学习效果。为了探究这种依赖关系在“Serve Bread”任务上保持其他所有条件不变——即使用相同的 45 次演示总计 30 分钟、相同的 HumanEgo 架构和相同的训练方案——仅改变生成动作标签的手部追踪模块。比较四种涵盖文献中主流设计方案的追踪器见图 15所示(1) Aria-MPS [7]默认方案它通过 Meta 的 MPS 流程融合两个大视场wide-FoV单色 SLAM 摄像头与设备内置 IMU 数据从而恢复度量级 3D 关键点注意中央 RGB 摄像头仅用于视频记录不参与手部追踪(2) WiLoR [65]一种基于 Transformer 的模型通过每帧的单张 RGB 裁剪图像回归 MANO 参数(3) HaMeR [66]一种强大的单目 RGB 估计器同样预测 MANO 参数但逐帧独立处理该类方法后续已出现针对时间序列和世界坐标系的扩展版本 [67, 68]以及 (4) MediaPipe [69]一种轻量级单目 RGB 流程其 3D 输出基于根节点root-relative需结合相机深度信息进行坐标提升lifting。除了这些纯视觉追踪器外还有一些基于传感设备的替代方案利用多模态传感手套 [70] 或 6 轴 IMU 系统 [71] 恢复手部姿态但这些方案要求演示者佩戴专用硬件不符合“零设备zero-instrumentation”的数据采集设定。针对每种追踪器重新进行数据预处理从零开始训练 HumanEgo 模型并在“Serve Bread”任务上进行 40 次真实环境测试评估图 15所示。