斯坦福李飞飞团队:低成本双目相机,强化机器人模仿学习能力
仅用低成本双目相机隐式几何融合就能让机器人获得媲美3D感知的能力。——为模仿学习打造更好视觉模块目录01 StereoPolicy核心逻辑双目特征融合隐式3D感知双目特征提取复用2D预训练优势立体Transformer隐式捕捉空间关联策略适配无缝对接扩散与VLA模型02 实验验证真实场景透明/反光物体也能稳操作仿真场景数据效率更高复杂任务更强关键参数双目基线物体距离10%最优模型设计大骨干立体融合最优03 价值与局限落地可行仍有挑战1. 核心价值低成本、强泛化、易落地2. 现存局限极端场景仍不足04 双目隐式几何操控新范式在机器人操控领域单目视觉长期是主流方案。但单目视觉天生缺失精准深度信息面对杂乱场景、透明/反光物体如玻璃杯、金属杯或精细操作如插 Toast、挂杯子时空间感知模糊操作成功率大幅下滑。与此同时RGB-D、点云等3D方案虽能提供深度却受传感器噪声、标定复杂、数据稀缺、推理延迟高等问题制约难以规模化落地。斯坦福大学李飞飞团队推出的StereoPolicy提出用同步双目图像直接增强机器人视觉运动策略。该方法无需复杂相机标定、不用重建深度图或点云仅通过双目特征融合就能让机器人获得精准空间感知在仿真与真实场景中全面超越单目、RGB-D、点云等基线为机器人3D感知提供了低成本、高适配的新范式。01 StereoPolicy核心逻辑双目特征融合隐式3D感知StereoPolicy的核心设计思路是不用显式重建3D直接用同步双目图像对通过预训练2D编码器立体Transformer隐式捕捉空间对应与视差线索。整体框架简洁高效可无缝适配扩散策略与预训练VLA模型无需修改骨干网络兼顾兼容性与扩展性。▲StereoPolicy 框架双目特征提取 立体 Transformer 融合双目特征提取复用2D预训练优势StereoPolicy采用“分编后融”策略先独立处理左右目图像再融合特征。具体来说对同步双目图像左目、右目分别用共享权重的预训练 2D 视觉编码器如 ResNet18、DINOv2提取单目特征图。共享权重可保证左右目特征空间一致避免几何错位同时复用2D预训练模型的强大语义与特征提取能力弥补3D模型泛化不足的短板。为增强几何推理外部视角图像会额外拼接冻结的DINOv2特征腕部视角因域差异不添加补充单目先验提升弱纹理区域的特征可靠性。立体Transformer隐式捕捉空间关联提取左右目特征后核心模块立体Transformer通过交替自注意力与交叉注意力融合双目特征。自注意力捕捉单目图像内像素级关联交叉注意力聚焦左右目间空间对应关系同时引入2D旋转位置编码2D RoPE强化跨视角位置推理让模型隐式学习视差与空间几何无需显式计算深度。这一设计的关键价值避开显式3D重建的计算开销与噪声干扰同时保留2D预训练特征的泛化能力让模型既懂语义又懂空间。策略适配无缝对接扩散与VLA模型StereoPolicy可灵活集成两类主流机器人策略StereoPolicy-DP面向从 scratch 训练的扩散策略将融合后的立体特征作为条件输入去噪网络让动作生成融入隐式空间信息提升精细操作精度StereoPolicy-VLA面向预训练视觉-语言-动作VLA模型将单目嵌入替换为立体特征轻量微调即可适配双目输入无需重训骨干高效增强VLA模型空间感知。02 实验验证StereoPolicy在RoboMimic、RoboCasa、OmniGibson三大仿真基准以及桌面单臂、双手机器人真实场景中全面测试对比RGB、RGB-D、点云、多视角四大基线结果显示其在成功率、泛化性、鲁棒性上均显著领先。真实场景透明/反光物体也能稳操作真实桌面任务香蕉抓取、吐司插入、塑料杯/金属杯/玻璃杯悬挂中StereoPolicy-DP平均成功率达59%远超RGB42%、RGB-D41%、点云14%、多视角44%基线。▲真实桌面任务双目策略全面优于单目、RGB-D、点云基线双手机器人移动任务吐司抓取、开收音机中StereoPolicy-VLA同样优于单目VLA能精准完成 gripper 插入、按钮按压等精细动作而单目VLA常因深度误判失败。▲真实桌面与双手机器人任务示例仿真场景数据效率更高复杂任务更强三大仿真基准中StereoPolicy在低数据30-100个演示与高数据200-300个演示设置下均最优。▲仿真任务双目策略在低 / 高数据下均最优尤其在遮挡、精细对齐任务如工具悬挂、倒水中优势更明显——例如RoboMimic工具悬挂任务StereoPolicy成功率达94%远超RGB53%。同时它比多视角方案更优验证立体Transformer特征融合的有效性。▲三大仿真基准任务示例关键参数双目基线物体距离10%最优研究发现双目性能核心取决于基线-距离比双目间距/相机到物体距离最优区间为9%-13%。如桌面场景相机距0.6-0.8m6cm基线效果最佳基线过小2cm视差弱、深度不准▲双目策略在不同相机角度下更稳健基线过大10cm视角重叠少、几何不一致。此外正面视角提升最显著18%侧面视角增益较小为硬件部署提供明确指导。模型设计大骨干立体融合最优消融实验显示预训练大骨干如SIGLIP-SO400M立体Transformer性能最优。DINOv2特征仅提升外部视角腕部视角因域差异无效移除立体Transformer成功率从94%跌至85直接证明融合模块的核心作用。▲骨干选择与双目融合模块的消融结果03 价值与局限落地可行仍有挑战1. 核心价值低成本、强泛化、易落地StereoPolicy的核心突破是重新定义机器人立体感知路径不用昂贵3D传感器、不用复杂标定、不用海量3D数据仅用低成本双目相机隐式几何融合就能让机器人获得媲美3D感知的能力。对行业而言这意味着机器人操控可摆脱“高精度硬件依赖”快速规模化部署对科研而言打通2D预训练模型与3D几何理解的鸿沟为VLA、世界模型等大模型增强空间感知提供通用方案。2. 现存局限极端场景仍不足▲真实场景深度 / 点云对透明物体失效StereoPolicy仍有短板其一极端光照敏感强光、弱光下双目匹配易出错其二透明/反光物体仍难虽优于基线但绝对成功率仍低其三动态场景适配弱当前侧重静态环境动态物体交互需进一步优化其四推理延迟略增比单目高约12%但远低于3D重建方案。04 双目隐式几何操控新范式从单目到显式3D再到StereoPolicy的隐式双目几何机器人视觉操控正走向“低成本、强泛化、高精度”的平衡态。StereoPolicy的核心不是否定2D或3D而是取两者之长复用2D预训练的语义与泛化用双目隐式几何补全空间感知避开显式3D的痛点。Ref论文标题StereoPolicy: Improving Robotic Manipulation Policies via Stereo Perception论文链接https://arxiv.org/pdf/2605.09989项目链接https://stereopolicy.github.io/