斯坦福李飞飞团队：低成本双目相机，强化机器人模仿学习能力

张

张建站

2026/5/28 10:48:15

10分钟阅读

仅用低成本双目相机隐式几何融合就能让机器人获得媲美3D感知的能力。——为模仿学习打造更好视觉模块目录01 StereoPolicy核心逻辑双目特征融合隐式3D感知双目特征提取复用2D预训练优势立体Transformer隐式捕捉空间关联策略适配无缝对接扩散与VLA模型02 实验验证真实场景透明/反光物体也能稳操作仿真场景数据效率更高复杂任务更强关键参数双目基线物体距离10%最优模型设计大骨干立体融合最优03 价值与局限落地可行仍有挑战1. 核心价值低成本、强泛化、易落地2. 现存局限极端场景仍不足04 双目隐式几何操控新范式在机器人操控领域单目视觉长期是主流方案。但单目视觉天生缺失精准深度信息面对杂乱场景、透明/反光物体如玻璃杯、金属杯或精细操作如插 Toast、挂杯子时空间感知模糊操作成功率大幅下滑。与此同时RGB-D、点云等3D方案虽能提供深度却受传感器噪声、标定复杂、数据稀缺、推理延迟高等问题制约难以规模化落地。斯坦福大学李飞飞团队推出的StereoPolicy提出用同步双目图像直接增强机器人视觉运动策略。该方法无需复杂相机标定、不用重建深度图或点云仅通过双目特征融合就能让机器人获得精准空间感知在仿真与真实场景中全面超越单目、RGB-D、点云等基线为机器人3D感知提供了低成本、高适配的新范式。01 StereoPolicy核心逻辑双目特征融合隐式3D感知StereoPolicy的核心设计思路是不用显式重建3D直接用同步双目图像对通过预训练2D编码器立体Transformer隐式捕捉空间对应与视差线索。整体框架简洁高效可无缝适配扩散策略与预训练VLA模型无需修改骨干网络兼顾兼容性与扩展性。▲StereoPolicy 框架双目特征提取立体 Transformer 融合双目特征提取复用2D预训练优势StereoPolicy采用“分编后融”策略先独立处理左右目图像再融合特征。具体来说对同步双目图像左目、右目分别用共享权重的预训练 2D 视觉编码器如 ResNet18、DINOv2提取单目特征图。共享权重可保证左右目特征空间一致避免几何错位同时复用2D预训练模型的强大语义与特征提取能力弥补3D模型泛化不足的短板。为增强几何推理外部视角图像会额外拼接冻结的DINOv2特征腕部视角因域差异不添加补充单目先验提升弱纹理区域的特征可靠性。立体Transformer隐式捕捉空间关联提取左右目特征后核心模块立体Transformer通过交替自注意力与交叉注意力融合双目特征。自注意力捕捉单目图像内像素级关联交叉注意力聚焦左右目间空间对应关系同时引入2D旋转位置编码2D RoPE强化跨视角位置推理让模型隐式学习视差与空间几何无需显式计算深度。这一设计的关键价值避开显式3D重建的计算开销与噪声干扰同时保留2D预训练特征的泛化能力让模型既懂语义又懂空间。策略适配无缝对接扩散与VLA模型StereoPolicy可灵活集成两类主流机器人策略StereoPolicy-DP面向从 scratch 训练的扩散策略将融合后的立体特征作为条件输入去噪网络让动作生成融入隐式空间信息提升精细操作精度StereoPolicy-VLA面向预训练视觉-语言-动作VLA模型将单目嵌入替换为立体特征轻量微调即可适配双目输入无需重训骨干高效增强VLA模型空间感知。02 实验验证StereoPolicy在RoboMimic、RoboCasa、OmniGibson三大仿真基准以及桌面单臂、双手机器人真实场景中全面测试对比RGB、RGB-D、点云、多视角四大基线结果显示其在成功率、泛化性、鲁棒性上均显著领先。真实场景透明/反光物体也能稳操作真实桌面任务香蕉抓取、吐司插入、塑料杯/金属杯/玻璃杯悬挂中StereoPolicy-DP平均成功率达59%远超RGB42%、RGB-D41%、点云14%、多视角44%基线。▲真实桌面任务双目策略全面优于单目、RGB-D、点云基线双手机器人移动任务吐司抓取、开收音机中StereoPolicy-VLA同样优于单目VLA能精准完成 gripper 插入、按钮按压等精细动作而单目VLA常因深度误判失败。▲真实桌面与双手机器人任务示例仿真场景数据效率更高复杂任务更强三大仿真基准中StereoPolicy在低数据30-100个演示与高数据200-300个演示设置下均最优。▲仿真任务双目策略在低 / 高数据下均最优尤其在遮挡、精细对齐任务如工具悬挂、倒水中优势更明显——例如RoboMimic工具悬挂任务StereoPolicy成功率达94%远超RGB53%。同时它比多视角方案更优验证立体Transformer特征融合的有效性。▲三大仿真基准任务示例关键参数双目基线物体距离10%最优研究发现双目性能核心取决于基线-距离比双目间距/相机到物体距离最优区间为9%-13%。如桌面场景相机距0.6-0.8m6cm基线效果最佳基线过小2cm视差弱、深度不准▲双目策略在不同相机角度下更稳健基线过大10cm视角重叠少、几何不一致。此外正面视角提升最显著18%侧面视角增益较小为硬件部署提供明确指导。模型设计大骨干立体融合最优消融实验显示预训练大骨干如SIGLIP-SO400M立体Transformer性能最优。DINOv2特征仅提升外部视角腕部视角因域差异无效移除立体Transformer成功率从94%跌至85直接证明融合模块的核心作用。▲骨干选择与双目融合模块的消融结果03 价值与局限落地可行仍有挑战1. 核心价值低成本、强泛化、易落地StereoPolicy的核心突破是重新定义机器人立体感知路径不用昂贵3D传感器、不用复杂标定、不用海量3D数据仅用低成本双目相机隐式几何融合就能让机器人获得媲美3D感知的能力。对行业而言这意味着机器人操控可摆脱“高精度硬件依赖”快速规模化部署对科研而言打通2D预训练模型与3D几何理解的鸿沟为VLA、世界模型等大模型增强空间感知提供通用方案。2. 现存局限极端场景仍不足▲真实场景深度 / 点云对透明物体失效StereoPolicy仍有短板其一极端光照敏感强光、弱光下双目匹配易出错其二透明/反光物体仍难虽优于基线但绝对成功率仍低其三动态场景适配弱当前侧重静态环境动态物体交互需进一步优化其四推理延迟略增比单目高约12%但远低于3D重建方案。04 双目隐式几何操控新范式从单目到显式3D再到StereoPolicy的隐式双目几何机器人视觉操控正走向“低成本、强泛化、高精度”的平衡态。StereoPolicy的核心不是否定2D或3D而是取两者之长复用2D预训练的语义与泛化用双目隐式几何补全空间感知避开显式3D的痛点。Ref论文标题StereoPolicy: Improving Robotic Manipulation Policies via Stereo Perception论文链接https://arxiv.org/pdf/2605.09989项目链接https://stereopolicy.github.io/

GB/T 7714 BibTeX样式深度解析：预印本引用格式的技术实现与演进

GB/T 7714 BibTeX样式深度解析：预印本引用格式的技术实现与演进【免费下载链接】gbt7714-bibtex-style BibTeX styles for Chinese National Standard GB/T 7714 项目地址: https://gitcode.com/gh_mirrors/gb/gbt7714-bibtex-style GB/T 7714是中国学术写作…...

2026/5/28 10:47:37 阅读更多 →

如何快速上手CICC/gtr-t5-xl：5步完成文本嵌入

如何快速上手CICC/gtr-t5-xl：5步完成文本嵌入【免费下载链接】gtr-t5-xl 项目地址: https://ai.gitcode.com/hf_mirrors/CICC/gtr-t5-xl CICC/gtr-t5-xl是一款强大的文本嵌入模型，能将文本转换为高维向量，广泛应用于语义搜索、文本聚…...

2026/5/28 10:46:08 阅读更多 →

Codesys on Linux ARM：除了软PLC，你还能用它轻松搞一个带Web可视化界面的物联网网关

Codesys on Linux ARM：从软PLC到物联网网关的跨界实践在工业自动化和物联网技术快速融合的今天，传统的边界正在被不断打破。当我们谈论Codesys时，大多数工程师的第一反应可能还停留在"软PLC开发环境"的认知层面。但事实上&#xf…...

2026/5/28 10:44:00 阅读更多 →

ML模型监控工具：监控和维护机器学习模型的性能

ML模型监控工具：监控和维护机器学习模型的性能一、ML模型监控工具概述 1.1 ML模型监控工具的定义 ML模型监控工具是指用于监控和维护机器学习模型性能的软件工具。它通过收集模型的预测数据、性能指标和数据质量，帮助用户了解模型的状态，及时…...

2026/5/26 19:26:34 阅读更多 →

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略引言在 AI 技术快速发展的今天，越来越多的 AI 工具涌现出来，帮助开发者提高工作效率。但对于许多开发者来说，面对众多的 AI 产品和服务，往往感到困惑：这…...

2026/5/28 3:57:35 阅读更多 →

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-downloader 还在…...

2026/5/27 13:51:25 阅读更多 →

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案【免费下载链接】Bifrost Cross-platform tool for downloading Samsung mobile device firmware. 项目地址: https://gitcode.com/gh_mirrors/sa/Bifrost 还在为三星设备固件下载而烦恼吗&#xff…...

2026/5/26 4:45:11 阅读更多 →