清华大学:机器人练武功,用3%的数据居然比用全部数据练得更好?
这项由清华大学、北京大学、上海交通大学及上海期智研究院联合主导并与GalBot公司合作完成的研究于2026年6月发表论文编号为arXiv:2606.06953。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队给这套方法起了一个颇为直白的名字——LIMMT全称Less Is More for Motion Tracking翻译过来就是动作追踪中少即是多。这也是该领域第一项专门从数据质量角度系统研究人形机器人动作训练的工作。**一、问题的根源机器人学武功为什么数据越多反而越差**先从一个生活场景说起。假设你要教一个小学生练书法。你有两种选择一是给他一千张各种字迹的范本其中混杂着潦草的、错误的、歪斜的二是精心挑选出三十张笔画清晰、结构规范的优质范本。大多数人凭直觉就能判断第二种方式往往更有效——因为糟糕的范本不仅没有帮助还会干扰学生对正确写法的认知。人形机器人学习动作的道理几乎一模一样。研究团队关注的核心问题正是让机器人模仿人类动作的动作追踪技术。简单来说这项技术的目标是给机器人一段参考动作比如一段跳舞、走路或跑跳的视频让机器人用自己的身体把这段动作准确地还原出来同时还不能摔倒、不能违反物理规律。这项能力是人形机器人实现各种复杂行为的基础——无论是走路、搬运物品还是协助人类完成各种任务。近年来研究人员积累了海量的人体动作数据。其中最具代表性的是一个叫做AMASS的大型动作捕捉数据库它汇集了来自15个不同光学标记数据集的动作片段共有约一万四千条训练数据。与此同时随着从网络视频中自动提取人体姿态技术的发展动作数据的规模还在持续爆炸性增长。然而一个令人困惑的现象出现了当研究人员把所有这些数据都喂给机器人去学习时效果并没有随数据量的增加而持续提升有时甚至适得其反。而业内顶尖的追踪系统反而都还在使用规模较小但质量更高的数据集。这就像那个书法教学的悖论更多的范本未必带来更好的书法。那么问题究竟出在哪里研究团队通过细致的分析发现问题的核心在于数据中充斥着各种物理上不可能发生的动作。这些动作可能是在用摄像头估计人体姿态时产生的误差也可能是在数据处理过程中引入的噪声。常见的毛病包括人物突然漂浮在空中没有任何支撑、脚与地面发生穿透、关节运动速度超过了任何真实物理系统的极限以及脚在静止状态下仍在地面上滑动等等。当机器人的学习算法试图去模仿这些不可能完成的动作时就好比让那个学书法的学生去临摹一张纸上画的凌空悬浮的笔画——这既不可能实现还会把学生原本正确的认知搅乱。更糟糕的是大量重复雷同的低质量数据比如几千条几乎一样的普通走路片段会让机器人的学习陷入一种刷水题的状态表面上处理了大量数据实际上没有学到任何新东西计算资源也被大量浪费。**二、重新定义好数据三把衡量尺子**面对这个问题研究团队没有简单地说去掉坏数据就行了而是提出了一个更系统的思考框架一条动作数据究竟好不好要从三个维度来衡量。这三个维度就像是一把三叉尺缺少任何一叉都无法准确量出数据的价值。第一个维度叫做物理可行性简单说就是这个动作在现实世界中能不能被一个有血有肉、受物理规律约束的身体实际做出来。漂浮在空中的身体、穿透地面的脚、超速旋转的关节——这些都是物理上不可能发生的事情对应的数据自然是需要清除的毒素。第二个维度叫做多样性类似于问这批数据里有没有足够多种类的动作假如数据库里有九千九百条走路数据和一百条跳舞数据那就算总量再大机器人学到的也主要是怎么走路碰到跳舞就抓瞎了。好的数据集需要在行为空间上有广泛的覆盖就像一本词典不能只收录的、地、得这类常用字还需要覆盖各种生僻字和专业词汇。第三个维度叫做复杂度考量的是动作本身有没有足够丰富的信息量。一段机器人站在原地纹丝不动的视频或者慢悠悠地在平地上溜达对机器人的学习贡献极为有限——因为这些动作太简单了没有什么需要思考的地方。相反一段高速跑跳、快速转身、或者充满节奏感的舞蹈动作包含了丰富的速度变化、加速度变化和协调性信息能够给机器人的学习提供更强的刺激和更丰富的训练信号。这三个维度之间还有一个关键的顺序逻辑必须先解决物理可行性再考虑多样性最后才是复杂度。原因很简单——如果先做多样性筛选那些物理上根本不可能的动作比如悬浮在空中的人在特征上往往显得很特别反而会被算法认为是独特的数据而优先保留结果正好相反。就像在图书馆整理书籍首先要把印刷错误的烂书扔掉再考虑分类和选重点书目而不是先选重点书目再发现很多都是废纸。**三、GQS框架一条三段式数据炼金流水线**基于上述思考研究团队设计了一套叫做GQS通用质量筛选General Quality Selection的三阶段数据处理流水线。这套流水线的目标是把一个大而杂乱的动作数据库提炼成一个小而精华的训练数据集。流水线的第一关叫做物理过滤相当于用一张细密的筛网把明显有问题的数据筛掉。具体的做法是把每一条候选动作数据放进一个物理模拟器里重新播放一遍——不是让机器人真正去做而是在电脑里模拟看看这个动作在物理上是否能成立。模拟过程中系统会同时盯着六种典型的物理违规整个身体持续漂浮在空中说明动作重建出现了灾难性错误、身体部位钻入地面地面穿透、关节速度超过硬件极限速度违规、脚在地面上不正常滑动足滑、身体各部分相互碰撞自碰撞以及关节加速度突变抖动。这六种违规被赋予了不同的权重而这些权重并不是拍脑袋决定的而是通过实验数据反推出来的。研究团队发现漂浮和足滑是最有害的两类错误必须重罚而速度高和抖动大的动作往往意味着动作本身很激烈这类动作反而对训练有益如果过于严格地惩罚就会把有价值的高难度动作误伤——因此这两类要轻罚甚至保留。最终每条动作数据会得到一个综合物理质量分满分100分只有得分不低于90分的数据才能进入下一关。这种分级惩罚的设计背后有一个朴素但重要的洞察一个激烈跳跃动作导致的短暂关节高速和一个根本就无法在物理上实现的悬空漂浮对训练的危害程度是完全不同的。把二者一刀切地同等对待就会把婴儿连洗澡水一起倒掉。通过第一关的数据进入第二关这一关的任务是建立语义地图即给每条通过筛选的动作数据分配一个在动作宇宙中的坐标位置以便后续根据这个坐标来判断哪些数据彼此相似、哪些数据代表了独特的行为。这里用到了一种叫做周期自动编码器Periodic Autoencoder简称PAE的技术。这个名字听起来复杂但背后的逻辑其实相当直觉化。人类的动作有一个非常突出的特点绝大多数日常动作都是周期性的——走路是左右脚交替迈步的循环跑步也是跳舞更是。普通的特征提取方法比如直接比较两个时间点上的关节角度往往对这种周期性不敏感两段几乎一样的走路动作仅仅因为在时间轴上错开了半个周期就可能被判断为差异很大从而让系统误以为二者代表了两种不同的行为。PAE的解决思路是与其比较两段动作在某一时刻的具体姿态不如提取动作的节律特征——也就是它的振幅动作幅度有多大和频率动作速度有多快。这就像比较两段音乐时与其逐帧比较每一个音符不如先看它们的整体节拍和音量包络是否相似。两段节拍和音量包络都类似的音乐哪怕具体音符稍有不同人耳听起来也会觉得差不多。通过PAE每条动作数据最终会被转化成一个固定长度的数字向量可以理解为一个坐标代表这条数据在动作语义空间中的位置。动作风格类似的数据坐标也会比较接近动作风格迥异的数据坐标则会相距甚远。这样就建立起了一张能够客观反映动作多样性的地图。流水线的第三关叫做加权最远点采样这是整个框架中最具创意的一个环节。有了前一步建立的动作语义地图现在需要从中挑选出一个小而精的子集来用于训练。挑选的核心目标是尽可能地覆盖整张地图的各个角落而不是扎堆选取某一类常见动作。这个过程可以用布点探险来理解。假设你需要在一张地图上选100个营地目标是让这100个营地尽量覆盖地图上的每一个角落而不是全部挤在城市旁边。最直觉的做法是最远点采样每次都选距离已选营地最远的那个点。这样选下来营地的分布就会自然而然地均匀铺开不会出现某个区域特别密集、而另一个区域完全空白的情况。研究团队在这个基础上加入了动作复杂度的偏好当两个候选数据在地图上的距离差不多的时候优先选择那个动作更复杂、更激烈的具体的度量方式是计算关节速度和加速度的能量。就好比在荒野中选营地当两个位置都同样偏远时优先选择地形更复杂、更具挑战性的那个——因为在那里训练出的技能未来的适应能力会更强。整个选择过程从最复杂的动作开始确保起点就是最具挑战性的然后不断向地图的其他区域扩展直到选满目标数量为止。**四、实验验证3%的数据为什么能打败100%**理论讲完了接下来是硬核的实验验证。研究团队在AMASS数据集上约14000条训练片段对两套主流的动作追踪系统进行了全面测试这两套系统分别叫做Any2Track和TWIST2都是当前业界最先进的追踪框架。最核心的发现是使用GQS方法筛选出的仅仅3%的数据大约420条片段总时长不足一小时来训练机器人在所有评测指标上都超过了用100%完整数据训练的结果。具体来说对于Any2Track系统使用3%的GQS数据训练后动作追踪成功率达到了95.6%而用全部数据训练只有94.2%动作误差关节位置均值误差也从0.114降低到了0.108。对于TWIST2系统GQS 3%数据的成功率达到86.1%而全数据训练只有82.5%关节误差从0.099降低到了0.092。更能说明问题的是随机抽取3%的对比实验。研究团队专门设计了一个随机取3%的对照组结果令人咋舌随机抽取3%的数据进行训练效果惨不忍睹Any2Track的成功率暴跌至83.8%TWIST2更是跌至64.9%——这表明用更少的数据本身并不是秘诀秘诀在于用对的数据。研究团队还发现了一个甜蜜点在GQS筛选后的数据中选取约10%用于训练能够达到最佳的性价比平衡点。在这个比例下Any2Track的成功率进一步提升至95.9%TWIST2也达到了86.8%——比全数据训练还要好同时训练成本大幅降低。继续增加数据比例至90%甚至100%带来的改善已经微乎其微但计算开销却成倍增加。学习曲线的对比同样富有启发性。研究团队记录了整个训练过程中奖励分数的变化发现GQS数据训练的奖励曲线从一开始就显著高于全数据训练并且在整个训练过程中始终保持领先。这说明GQS带来的优势并不是什么后期才显现的收益而是从训练的最初阶段就在引导机器人走上一条更好的学习路径——就像书法启蒙阶段就打好了基础之后的提升才会事半功倍。在跨数据集的验证实验中研究团队还在一个叫做PHUMA的高质量物理感知动作数据集上进行了测试。PHUMA本身经过了专业的物理合理性处理因此物理过滤带来的提升相对有限但多样性筛选和复杂度加权仍然带来了一致的改进。更有意思的是用PHUMA的10%数据训练出的模型在完全没有见过的AMASS测试集上也表现更好成功率92.8%对91.0%说明GQS数据选出的模型对于未见过的场景泛化能力更强——因为去掉了容易过拟合的冗余数据模型反而学到了更通用的技能。**五、拆解验证每个环节究竟贡献了多少**为了精确地知道三个阶段各自贡献了多少研究团队做了严格的消融实验——就是逐一拆掉每个组件看看性能如何变化。去掉物理过滤之后成功率从95.6%急剧下降至91.1%动作误差也明显恶化。这证实了物理过滤的不可或缺性在低数据量的极端条件下哪怕只有几条有毒的数据混入就会严重拖累整体训练效果。去掉多样性采样即不做最远点采样只靠物理过滤和复杂度选择之后成功率降至93.4%。这说明单纯堆砌高难度动作而忽视行为覆盖面反而会让训练数据在行为空间上出现大片空白机器人对于某些类型的动作就会完全没有经验。去掉复杂度加权即只做物理过滤和均匀最远点采样之后成功率为94.6%已经相当不错了但加上复杂度加权后的完整GQS仍然能多出约1个百分点的成功率。这1个百分点背后的含义是在动作语义地图的每一个区域内优先选择更有挑战性的代表样本能让训练数据的信息密度进一步提升。这个拆解验证的结论很清晰三个阶段并非各自为战而是存在协同效应。物理过滤清除了有害数据为后续阶段建立了干净的起点多样性采样确保了行为覆盖面的广度复杂度加权则在广度的基础上进一步提升了每个样本的学习价值。顺序同样关键如果颠倒顺序就会产生前文分析过的问题。**六、权重如何确定科学分配六种罪行的刑罚**在物理过滤中六种违规行为的惩罚权重是如何确定的研究团队采用了一种数据驱动的刑罚标定方法分别对每一种违规指标独立地做过滤实验——即只保留某一项指标最好的90%数据然后训练模型看看性能如何变化。实验结果非常有趣六种指标被清晰地分成了三类。浮空和足滑属于有毒指标去掉它们后性能明显提升分别提升了约2.6和1.0个百分点因此被赋予高惩罚权重。地面穿透和抖动属于中性指标过滤这些数据对性能几乎没有显著影响分配中等权重作为安全约束。而速度违规和自碰撞则属于友好指标——过滤掉这类数据后性能反而下降了2.8和3.0个百分点原因在于关节速度高的动作往往就是高难度、高强度的动作正是训练所需要的而某些贴身格斗或舞蹈动作在形式上可能有短暂的自碰撞却包含了极为丰富的协调性训练信息。如果把这类数据删掉就是主动丢弃了最有价值的训练素材。这个发现颠覆了很多人对物理合理性过滤的直觉理解。还有一个非常有价值的发现仅仅按照物理质量分从高到低排序表现最好的并不是物理分最高的那10%数据而是物理分排在60%到70%之间的数据段其成功率反而达到了96.3%。原因正是前面讨论过的物理分满分的动作往往是极其保守的静止或慢速动作缺乏动态丰富性真正有价值的训练数据是那些物理上过关、但动作本身有相当复杂度的数据。这进一步证明单纯追求物理合理性并不等于选出了好的训练数据必须把多样性和复杂度也纳入考量。**七、真机部署在真实机器人身上的检验**再好的仿真结果如果到了真实机器人上就失效那也只是空中楼阁。研究团队将用GQS 10%数据训练的策略直接部署到了宇树G1型号的真实人形机器人上进行了包括中国功夫、老城路舞蹈Old Town Road、Can Do Can Go舞蹈以及单腿跳跃和手持箱子等多种动作类别的追踪测试每类动作进行了10次试验。量化结果同样令人信服。在走路类动作上GQS 10%策略和全数据策略都达到了10次全部成功但前者的关节位置误差0.0856 rad明显低于后者0.1037 rad提升了约17%。在跳跃类动作上GQS 10%达到了9次成功全数据策略只有8次。在两段舞蹈动作上GQS 10%分别达到8次和7次成功而全数据策略只有7次和6次。平均而言GQS 10%策略的真机成功率为85%高于全数据策略的77.5%平均关节误差也低了约15.8%。值得强调的是这个部署是零样本的——没有针对真实机器人进行任何额外的微调或调整直接把仿真中训练好的策略拿来用。这种直接可用性在机器人领域非常珍贵因为真实机器人和仿真环境之间总存在差距被称为仿真到现实的鸿沟。GQS数据之所以能帮助跨越这条鸿沟研究团队认为有两个原因物理过滤去除了那些在仿真中能侥幸应付、但在现实中必然失败的虚假动作而复杂度加权选出的高难度动作则让机器人在训练中就练习了各种极端情况提高了对现实世界不确定性的鲁棒性。**八、一个实用小工具怎么快速决定用多少数据**对于想把GQS应用到自己数据集上的研究者或工程师还有一个自然而然的问题应该选多少比例的数据来训练理论上需要做一系列实验来测试不同比例的效果但这样做成本很高。研究团队针对这个问题提出了一个轻量级的估算方法叫做自适应比例选择Adaptive Ratio SelectionARS。ARS的核心逻辑是最优的数据比例取决于这个数据集内部的多样性密度。如果一个数据集非常冗余大量重复类似的动作就应该更大力度地筛选留下比例更小如果一个数据集本身已经很多样化那就需要保留更大比例以确保覆盖面。量化这种多样性密度的方式是通过统计PAE嵌入向量的有效维度数——也就是说这批数据的特征在高维空间里究竟铺开了多少个有实质意义的方向。用数学工具PCA主成分分析来提取看需要多少个主成分才能解释95%的数据方差。如果数据非常单调大部分数据特征都集中在少数几个方向上有效维度就低如果数据非常多样特征分散在许多方向上有效维度就高。根据这个有效维度数ARS给出的预测公式是最优比例 ≈ 0.5 × 有效维度数/总维度数的平方。在AMASS上有效维度占总维度的47%预测最优比例为11%与实验观察到的10%高度吻合在PHUMA上有效维度占81%预测为32.8%与实验观察到的30%同样接近。这个工具虽然只在两个数据集上得到了验证但提供了一个有价值的快速估算起点能显著减少调参的试错成本。---说到底这项研究给出的核心信息是在人形机器人的运动学习领域盲目堆积数据并不等于提升智能真正推动进步的是数据的质量——具体体现在物理可行性、行为多样性和动作复杂度这三个维度的协同优化上。用3%的精华数据打败100%的原始数据这个结论在直觉上反常但实验一次次地给出了同样清晰的答案。这件事对我们理解人工智能的学习机制有更广泛的启发意义不仅在机器人领域在语言模型、视觉模型乃至任何需要从数据中学习的系统中数据质量的战略性角色都值得重新审视。当下这个数据规模就是一切的流行叙事或许需要加上一个重要的注脚——前提是这些数据得有价值。如果这个话题让你对数据质量与机器学习的关系产生了更多兴趣可以通过论文编号arXiv:2606.06953查阅原文深入了解每一个实验的具体细节和技术实现。---**QA**Q1LIMMT方法中的GQS三阶段筛选是什么意思AGQS通用质量筛选分三步处理动作数据。第一步是把每条数据放进物理模拟器里检验按六种物理违规打分不合格的直接淘汰。第二步是用周期自动编码器把每条数据转换成一个代表动作风格的向量坐标建立动作语义地图。第三步是在这张地图上通过加权最远点采样均匀挑选覆盖面广且动作复杂度高的子集作为最终训练数据。Q2为什么随机抽3%数据效果很差而GQS挑选3%数据反而更好A随机抽取3%会保留很多物理上不可能实现的坏数据机器人试图模仿这些动作时会受到错误引导同时数据分布完全继承了原数据集的不均衡比如大量重复走路数据没有有效覆盖多样的动作类型。GQS则先删掉了所有物理违规数据再用算法确保选出的数据覆盖多种不同行为并优先保留动作激烈、信息量大的片段因此每一条数据都真实有效且互补性强。Q3GQS方法对机器人的实际部署有什么影响A用GQS 10%数据训练的策略在真实宇树G1机器人上的平均成功率85%比用全数据训练的高出约7.5个百分点关节追踪误差平均降低约15.8%。更重要的是这个策略不需要针对真实机器人做任何额外调整就能直接部署说明GQS过滤掉了那些在仿真中能蒙混过关、在现实中却会失败的数据同时复杂动作的训练提升了机器人应对现实不确定性的能力。