卡内基梅隆大学:人形机器人实现类人触觉抓握力道感知能力提升
这项由卡内基梅隆大学联合德克萨斯大学阿灵顿分校、博世人工智能中心共同完成的研究以预印本形式发布于2026年4月论文编号为arXiv:2604.13015有兴趣深入了解的读者可通过该编号查询完整原文。人类在叠毛巾、往书架上放书、端着两杯热茶走路这些事情上几乎不需要动脑但对于一台人形机器人来说这些任务背后藏着令人头疼的难题手指需要感知力道身体需要保持平衡眼睛需要判断位置而这一切还得同时发生、相互配合。研究团队在这项工作中正是瞄准了这个问题试图让人形机器人真正学会有感觉地操作物体。一个有趣的类比是驾驶一辆没有方向盘反馈的赛车。你能看到赛道但感受不到轮胎与地面的摩擦无法判断是否即将失控。现有的大多数机器人操控系统正处于这种境地——它们可以看可以动却缺少那层关键的手感。这项研究的核心贡献就是为机器人装上了这层手感并用一套名为触觉梦境的方法让机器人通过预测未来的触感来提升当下的操作能力。一、人形机器人为什么这么难驾驭在正式介绍这套系统之前值得先花点时间理解问题的难度。人形机器人与工厂里那种固定在地面上的机械臂完全不同它需要用两条腿站立和行走同时用两只手完成精细操作。这就像一个人在独木桥上单脚跳的同时还要穿针引线——任何一个环节的细微失误都可能让整套动作崩溃。更麻烦的是操作中的接触状态会频繁变化。插入一个形状吻合度很高的零件时手指与零件之间的接触力在毫秒级别内就会发生剧烈变化叠一条毛巾时软质材料的形变完全无法从视觉中准确预判。这类接触丰富的任务对机器人来说尤其困难因为纯靠摄像头看图像很难知道此刻手指正承受多少力、物体是否在打滑。研究团队在论文中提到当前绝大多数人形机器人研究系统要么有全身控制、要么有灵巧的手、要么有触觉传感但几乎没有系统把三者同时做到并整合进一个能够实际学习操作任务的平台中。这个空缺就是这项工作填补的地方。二、一套完整的学习操作流水线研究团队构建的系统分成四个紧密衔接的部分就像一条生产线每个环节的输出都是下一个环节的输入。第一个环节是训练机器人的下半身控制器。这个控制器负责让机器人站稳、走路、弯腰、蹲下同时保证上半身在做各种动作时整体不会摔倒。训练过程在计算机模拟环境中完成采用的方法是先训练一个老师策略这个老师可以获取模拟器里的特权信息比如脚是否踩地然后再训练一个学生策略学生只能使用真实机器人上能拿到的传感器数据来模仿老师的行为。这种方式确保训练出来的控制器可以直接部署到真实机器人上不会因为模拟与现实的差距而失效。这个下半身控制器能够稳定地执行一系列复杂指令身体前进后退左右移动的速度、躯干的倾斜角度和高度甚至支持让机器人蹲下够到地面上的物体或者在行走过程中保持上半身朝向不同方向。经过系统性测试该控制器能够在多个方向上维持稳定高度可控范围从33厘米到80厘米躯干俯仰角度的可控范围超过两个弧度这为上半身的灵活操作提供了坚实的支撑基础。第二个环节是数据采集系统。操作人员佩戴VR头盔头部、手腕、手指的运动实时映射到机器人身上——头部运动转化为躯干的姿态指令手腕运动通过逆运动学计算转化为机器人手臂的关节角度手指的弯曲程度则通过一套叫做DexPilot的方法转化为机器人灵巧手的手指动作优化的目标是让机器人手指尖之间的距离关系尽量和操作员一致。操作员还通过一个手柄摇杆控制机器人的行走方向和速度。在整个遥控过程中系统同步记录多路摄像头图像、机器人身体和手部的关节状态、手部每个关节的受力数据以及来自两只手上分布式触觉传感器的数据。谈到触觉传感每只手上的传感器覆盖17个区域包括拇指、食指、中指、无名指、小指各自的几个节段以及手掌每只手提供1062维的触觉观测数据。这些数据记录了手与物体接触时各个位置的压力分布就像给机器人的手掌铺了一张精密的压力地图。三、让机器人幻想未来触感的核心算法采集到足够的演示数据之后研究团队用这些数据训练了一个名为人形触觉梦境变换器的策略模型英文缩写为HTD。这个模型的架构可以用感官融合加预测来理解它同时接收视觉、本体感觉关节角度和速度、手指受力和触觉信号经过一个编码器把这些信息融合成一个统一的内部表达再通过一个解码器产生机器人接下来要执行的动作序列。模型的巧妙之处在于它额外做了一件事除了预测下一步动作它还被要求预测未来一段时间内手指会承受怎样的力以及未来的触觉传感器会呈现怎样的激活模式。这就是研究团队称之为触觉梦境的机制——机器人在操作过程中不仅根据当前感知到的状态决定下一步怎么动还被训练成能够提前感受到即将发生的接触是什么样子的。这种预测并不是在原始传感器数据层面进行的而是在一个经过学习的压缩空间里进行。研究团队发现直接让模型预测原始触觉数据效果很差因为触觉信号本身噪声大、稀疏、维度高直接回归这种信号很容易被噪声主导而学不到有意义的东西。他们的解决方案是使用一个指数移动平均教师编码器来产生稳定的目标标签——这个教师编码器的参数是学生编码器参数的滑动平均更新非常缓慢像一个经验丰富的老师给出的参考答案不会因为学生的每次波动而大幅变化从而避免了模型陷入所有触觉输入都映射到相同表达的坍塌困境。学生模型被训练成在这个压缩空间里预测未来的触觉状态损失函数同时优化预测方向用余弦相似度衡量和预测幅度用平滑L1损失衡量确保预测结果在方向和大小两个维度上都尽量贴近教师给出的目标。整个训练只需要一个阶段不需要先单独预训练触觉模块再拼接到策略网络上所有目标一起优化。在模型结构上每种输入模态都有专属的编码模块。图像通过预训练的残差网络提取特征关节状态和受力信号通过轻量级多层感知机处理触觉输入则采用了一套按手指区域独立编码的方案——拇指、食指、中指等每个区域先被分成若干局部小块每个小块重塑成二维压力图后经过卷积网络处理再合并成该区域的紧凑表达。不同模态的特征统一通过交叉注意力机制压缩成固定数量的令牌然后输入变换器编码器进行跨模态融合。输出端同样是模块化的设计不同类型的动作末端执行器姿态、躯干姿态、行走速度、手指动作由独立的专家模块解码触觉预测也由专属的梦境专家模块产生。部署时梦境专家的输出完全不使用只有动作专家的输出被发送给机器人执行。四、五项真实世界任务的考验研究团队在五项各具特色的真实操作任务上测试了整套系统每项任务都针对不同类型的挑战。第一项任务是把一个T形积木插入一个T形底座。这个任务之所以困难在于底座与积木之间的间隙只有3.5毫米相当于在一个只比零件本身大一点点的孔里精确对齐并推入。细微的角度偏差就会卡住需要机器人根据接触力实时微调姿态。第二项任务是整理书本。机器人面对的是一本放在桌面上的硬皮书书本太薄没有直接抓握的空间。机器人需要先用手指将书轻轻推出去制造出一个可以抓握的悬空边缘再抓起来放到书架上。任务中使用了两种不同的书且每次书的初始位置都在一定范围内随机变化。第三项任务是叠毛巾这是典型的可变形物体操作任务毛巾每次的初始折叠状态都不同整个任务包含多个连续的操作步骤对长时程规划和精细手部控制都有要求。第四项任务是猫砂铲。机器人需要先蹲下去捡起地面上的铲子然后用铲子从猫砂盆里舀起猫砂再走到垃圾桶边把猫砂倒进去。这个任务同时测试了全身协调蹲下是非常大幅度的动作和工具使用能力而且铲子、垃圾桶的位置每次都有变化。第五项任务是端茶服务。机器人走到一个吧台旁拿起两杯随机摆放的茶端着走向另一张桌子停下来把两杯茶放到桌上。这个任务测试的是双手同时持物行走时保持物体稳定的能力以及整个过程中的全身协调。每项任务进行20次真实机器人测试同时比较了三种方法只使用视觉和本体感觉的ACT基线、在此基础上额外加入触力觉输入的ACT基线以及完整的HTD方法。HTD在五项任务的平均成功率上比较强的那个ACT基线提升了约30个百分点换算为相对提升约为90.9%在平均得分率部分完成也算分上也提升约17.9个百分点。具体分析各任务的表现T形插入任务体现了触觉对精密对齐的帮助毛巾叠放展示了在长序列可变形物体操作中的优势猫砂铲任务获得了最大的相对提升原因是蹲下加工具使用的组合对全身协调要求极高。端茶任务中ACT方法在双手成功抓起两杯茶之后经常无法顺利完成转身和行走而HTD的表现稳健得多研究团队认为这与HTD把行走速度命令作为独立模块解码有关让这个维度较低但行为上非常重要的输出不会被其他高维动作信号淹没。书本整理任务的提升相对较小可能因为该任务的视觉线索更充分、位置变化范围更小对触觉的额外信息依赖相对低一些。五、触觉到底有多重要——拆解实验说话为了精确理解触觉和触觉梦境各自的贡献研究团队在T形插入和毛巾叠放两个任务上做了细致的消融实验对比了四种变体。第一种是完全去掉触觉输入和触觉梦境训练目标第二种是保留触觉输入但去掉梦境预测任务第三种是加入梦境训练但在原始传感器空间预测未来触觉第四种是完整方法在压缩的潜在空间里预测未来触觉。实验结果揭示出三个层次的结论。首先单纯把触觉数据喂给模型并不稳定可靠——在毛巾叠放上有帮助在T形插入上没有帮助平均成功率甚至略微下降。这说明触觉信号本身如果没有好的学习机制配合并不能自动转化为更好的控制表现反而可能引入噪声干扰。其次加入梦境预测任务之后无论是在原始空间还是在潜在空间预测都明显优于只用触觉输入不做预测的情况说明让模型主动预期未来接触的学习信号比被动接收当前触觉信号更有效。最后在潜在空间里做梦境预测比在原始空间里做效果显著更好成功率相对提升约30%。这一点在研究者的直觉中并不难理解——原始触觉信号高维、稀疏、充满噪声让网络在这个空间里学习预测信号质量太低而压缩空间里的表达滤除了噪声保留了接触状态的结构化信息预测目标更加清晰学习效率自然更高。研究团队还对预测的质量做了定性可视化。在端茶和叠毛巾两个任务的完整操控过程中模型预测的未来手部受力轨迹与真实记录的力信号在接触发生的时机和力的大小上都保持了较好的一致性。触觉潜在表达的相似度在持续接触阶段稳定维持在较高水平只在接触状态突然切换的瞬间出现短暂下降而这种下降是可以理解的——模型以开环方式一次性预测一个完整的短序列当接触状态在序列中途发生不可预测的突变时预测自然会出现偏差但整体上仍然保持了较高的准确性。从潜在表达的热力图上还能观察到一个有意思的规律当手指处于无接触或轻接触状态时不同手指、不同任务之间的基础激活模式相互类似一旦发生较强的接触激活模式就变得高度个性化产生独特的高强度响应图案。这说明学习到的触觉潜在空间确实捕捉到了有物理意义的接触结构而不仅仅是对原始传感器信号的简单压缩。归根结底这项研究用一套实际可运行的完整系统证明了一件事要让人形机器人在真实世界里可靠地做那些对人类来说再自然不过的操作任务光有眼睛和本体感觉是不够的触觉必须成为核心感知模态而且需要用预测未来触感这种主动方式来学习而非被动地把触觉信号塞进输入端了事。这套硬件齐备、数据高效、训练一步到位的路径可能是通往更通用人形机器人的一条实际可行的道路。说到底这项研究解决的是一个看起来很具体实则牵一发动全身的问题机器人的手怎样才能真正感觉到它在触摸什么。研究团队没有绕弯子而是老老实实地搭了一套完整的系统从让机器人站稳到帮它学会抓握再到让它能预感未来的接触每一步都有扎实的实验支撑。五项任务超过九成的相对提升率以及消融实验里层层剥开的证据共同指向一个清晰的结论触觉梦境这个主意是对的而且在压缩的潜在空间里做这件事比在原始传感器数据里做更聪明。这对未来想在家里帮你叠衣服、端茶倒水的人形机器人来说是一个值得认真参考的方向。感兴趣的读者可以通过arXiv编号2604.13015找到完整论文进一步了解技术细节。QAQ1触觉梦境Touch Dreaming是什么原理为什么比直接输入触觉信号效果更好A触觉梦境是一种训练技巧让机器人在学习动作的同时额外学习预测未来一段时间内手部会感受到什么触觉和受力状态。这个预测任务迫使模型内部必须构建出对接触动态的理解而不仅仅记忆看到这个画面就做这个动作。关键是预测在压缩的潜在空间里进行而不是直接预测原始传感器数值因为原始触觉数据维度高、噪声大、稀疏直接回归这种信号效果很差压缩空间过滤了噪声保留了接触结构学习信号更清晰这使得成功率相比在原始空间预测又提升了约30%。Q2人形机器人下半身控制器是如何训练出来的为什么要用教师-学生框架A控制器在计算机模拟环境中用强化学习训练。先训练一个教师策略它可以获取模拟器内部的特权数据如精确脚踩地状态因此表现出色然后训练一个学生策略学生只能使用真实机器人能拿到的传感器数据来模仿教师的动作选择通过减小两者输出差异来学习。这样做是因为教师在模拟中表现好但依赖真实世界没有的信息无法直接部署学生通过模仿获得了教师的能力却只使用可用信息可以直接在真实机器人上运行解决了模拟到现实的迁移问题。Q3人形触觉梦境变换器HTD在部署时是否需要运行触觉预测模块A不需要。触觉预测模块称为梦境专家只在训练阶段使用它的作用是通过预测未来触感这一辅助任务逼迫模型的共享变换器主干学习到对接触动态敏感的内部表达。训练完成后部署时只需要运行动作专家模块梦境专家的输出完全不被调用。这意味着推理阶段的计算量不增加整个系统在实际使用中与普通策略网络一样高效不存在额外的运行时开销。