具身评测的“滤镜”碎了!RoboChallenge 发布Table30 V2:测下你的模型真的泛化吗?
过去很长一段时间具身智能其实都缺一场真正像样的考试。原因并不复杂。在这个行业里一个 demo 做得漂亮从来不算太难。挑一套熟悉的环境选一个调过很多遍的任务控制好拍摄角度和执行流程最后跑出一段顺畅的视频这些都能证明方法“有希望大有作为”。但问题在于机器人真正要面对的从来不是 demo 里的世界而是充满摩擦、误差、遮挡、扰动和偶然性的物理世界。很多方法一旦放到真机上实测就会迅速暴露出问题。也正因为如此具身智能一直需要的都不只是更丝滑的Demo是一套更公开、更统一、可持续的真机评测体系。而如今这件事变得比过去更迫切了。原文链接具身评测的“滤镜”碎了RoboChallenge 发布Table30 V2测下你的模型真的泛化吗过去几个月VLA、强化学习和世界模型都在快速迭代。模型越来越会“做事”也越来越容易在单个任务上交出一份漂亮成绩单。可越是这样行业就越需要一个足够权威的 benchmark去回答一个更根本的问题这些模型到底是真的更接近通用能力了还是只是更擅长把某一道题做对半年前RoboChallenge 先迈出了第一步。它推出了 Table30把真机评测从零散的局部展示往 benchmark 的方向推了一步集中式、在线化、真实机器人、30 个任务、公开排行榜。RoboChallenge先搭起的不只是一个榜单而是一个“真实具身考场” —— 让不同模型第一次能够在更统一的规则下被持续地放到真机上比较。而在这半年里随着超过4万次的真机评测新的问题也开始浮出水面当越来越多的方法可以通过单任务精调把分数做高原来的评测方式是否还能真正测出下一代具身模型最关键的能力也正是基于这个背景RoboChallenge 选择把 Table30 升级到 Table30 V2。这次升级最值得注意的地方并不只是“多了几道题”而是它把过去半年真机评测里暴露出来的真实问题系统性地写回了规则本身。作为 RoboChallenge 的联合发起方之一原力灵机这次更像是在用一套新的评测设计回答同一个问题当单任务高分越来越容易做出来具身智能到底该怎么考才能真正考到泛化能力本身。此外这次 RoboChallenge 正式发布的 Table30 V2其预览版将也作为 RoboChallenge CVPR 2026 Workshop 竞赛的首秀上线发布。01 单任务冠军越来越多评测却越来越失真了现在的具身模型有点像什么有点像那种刷题特别猛的学生。你给他一道题他能做得很好你给他这一类题里的某一道变体他也许还能顶住。但你真把题库打乱、换个顺序、换个考场、再不允许他每道题单独准备一套答案他的真实水平就开始暴露了。而这正是 Table30 V2 要解决的问题。过去一段时间 VLA 和 WMA 在真机上的进步非常快尤其像 π0.5 这类开源模型已经在单任务精调设定里表现得相当强。很多看起来很难的任务只要训练数据认真整理、微调做得够狠最后都能拿下来。但问题也随之出现模型常常被微调到几乎失去任务外能力榜单测出来的越来越像单题熟练度而不是通用能力。但这也背离了榜单的初衷下一代具身模型真正该测的不应只是单任务表现而是泛化。这句话其实是在说我们不能再拿“这道题你做对了没”来判断一个机器人聪不聪明了而要看它换一道题、换一个物体、换一张桌子甚至换一台机器之后还能不能做对。这才是真正的具身智能需要解决的实际问题。02 RoboChallenge 把“真机裸考”这件事做成了这一点其实很重要。今天谈 Table30 V2容易直接从新任务、新协议讲起但如果不把 RoboChallenge 之前做的事情讲清楚就很难理解 V2 为什么值得认真看。RoboChallenge做成的第一件事是让真机评测从 demo 逻辑往 benchmark 逻辑走。它证明了一件事真机评测值得业界投入精力去做。过去的真机评测并不是没有只是它们大多关注局部在某个任务、某套环境、某台设备上跑出一个结果证明了某个方法有效。也有更早的在线评测工作或者更偏分布式的方案让用户本地跑完再提交视频判分。而RoboChallenge 则证明了集中式、在线化、真机集群这条路线是跑得通的而且到目前为止它仍是任务数量最大的那类。第二件事是让行业第一次比较连续地看到模型能力变化。RoboChallenge发现随着注册用户增多原 Table30 上的 SOTA 成功率也在快速抬升。换句话说RoboChallenge 不只是一个排行榜它更像一个“能力地震仪”把行业里 VLA/WMA 的进步曲线给测了出来。第三件事是把真实世界里的反馈收集回来了。Table30 吸引到的用户数量远超预期不仅有机构团队也有个人研究者和学生而大家围绕公平性、带宽、规则设计提出的大量反馈直接推动了 V2 的诞生。尤其一个很关键的观察是原来如果要对 30 个任务分别调模型、分别做 fine-tune个人研究者几乎没有成本优势最后排行榜上更容易只剩机构玩家。这也是 V2 转向多任务评测的重要原因之一。所以你会发现Table30 V2 不是突然灵光一现的第二版。它更像是 RoboChallenge 在做了 4 万多次真机测试之后对“具身模型到底该怎么考”给出的一次系统回答。03 Table30 V2变的不只是题量而是physical AI的体现先说最直观的变化题更难了但不是那种“为了难而难”的设置。Table30 V2 保留了 12 个上一代任务同时新增了 18 个全新的双臂灵巧操作任务组成新的 30 任务套件。这些任务把现实世界里的摩擦力、接触约束和物理复杂性带进来了。Table30 没有充分覆盖真实世界的难点所以 V2 要把任务往软体、工具和双臂协作这几个方向拉。为什么是这三个方向因为这三类任务最不容易靠“背答案”混过去。先看软连续体。绳子、布料、带子这类东西的麻烦在于它们没有固定形状。你今天看到的状态下一次几乎不会一模一样。Table30 V2说得很直接这类物体的状态很难 run-to-run 地复现模型必须处理从未见过的形状和状态。换句话说这种题天然就在考泛化而不是考记忆。再看工具使用。会抓物体和会用工具根本不是一回事。拿起印章不难难的是知道印章、印泥、纸面之间的空间关系拿起刷子不难难的是控制力度、角度和接触时机。Table30 V2 明显在往这种“带物理常识”的任务上加码。最后是双臂同步协作。很多双臂任务过去其实还是“一只手干活另一只手辅助一下”但这次 V2 更强调两只手在受限空间里做高精度协同。Table30 V2统计里30 个任务中有 9 个要求双手协调7 个涉及工具使用6 个要求高位置精度而且这些难点是彼此交叉的。你可以把它理解成它不再满足于考“你会不会抓”而是开始考“你会不会像一个熟练工那样同时处理多个物理约束”。04 不仅任务变难了真机评测的规则也变了如果说任务升级是在提高题目含金量那么协议升级就是在反“刷榜工作”。Table30 V2 最关键的一条新规则是全面转向多任务模型。这件事表面看只是换了评测口径实际上是在打掉过去很常见的一种隐形优势你不再能靠“一题一个模型”“一题一套调参策略”去拼榜。技术报告和官方材料都强调V2 的目标是测试更通用的模型而不是鼓励参赛者为每个任务单独训练一个专用模型。这里最聪明的一个设计是它的“临场抽题”逻辑。系统会先问你你是否已经为若干任务准备好了你回答“准备好了”之后平台只会在真正开始前几秒告诉你这次做哪一题并要求立刻执行。Table30 V2 专门画图解释这其实是在探测你有没有偷偷切模型。它不是绝对防作弊但至少把“后台切换 task-specific policy”这件事的成本抬高了。再往前一步就是Zero-Shot和OOD。Zero-Shot不是一个花哨词它在这里的意思很朴素不给你额外微调看你在没见过的物体、没见过的背景、甚至轻微变化过的环境里还能不能把同一个任务做出来。而OOD则更像压力测试。不是换个颜色这么简单而是故意让环境往“不舒服”的方向偏比如台面高度变了摆放更别扭了甚至把桌面换成沙发。一句话我觉得总结很到位Table30 V2要做的已经不是普通的分数对比而是在逼问模型有没有学到任务的“智能本质”。这两层测试加进来之后Table30 V2 的气质就彻底变了。它不再只是一个“30 道桌面题”的合集而更像是一套围绕真实泛化能力设计出来的考试系统。05 系统升级是这次极有价值的部分很多人看 benchmark只看任务和分数。但对在线真机评测来说真正决定它能不能长期跑下去的往往是系统层面的东西吞吐量够不够、调度稳不稳、初始状态准备麻不麻烦、机器实例之间是否一致、等待反馈是不是太久。Table30 V2 这次在系统上也动了大手术。最直接的一条是吞吐量提升到上一代的 300%。这件事最容易被大家忽视但却非常重要因为一旦评测里引入多任务、zero-shot、OOD单次实验背后的测试量会迅速膨胀没有吞吐量评测设计再先进也跑不起来。具体怎么提上去的一个非常实用的改动是把初始状态准备从像素级对齐放宽成粗略对齐。这看起来像妥协实际上很合理既然你本来就在测泛化那就没必要再把每次任务都摆成“和参考图一模一样”。论文明确说这项改动显著加快了任务准备时间。换句话说它是在把 benchmark 从“精致实验室”往“真实工位”上拉。另一个关键变化是把完成时间也拉进评价维度。这个设计我很喜欢因为它针对的是具身评测里一个特别常见、但很少被明说的问题有些策略不是更聪明而只是更慢。你给它足够长的时间它当然更容易成功但那并不意味着它更可用。V2 把 Time to Complete 单独拎出来本质上是在告诉大家不只看你能不能做成还看你是不是像一个能上岗的系统那样高效。还有一个容易被忽略的点是硬件维度也被重新设计了。V2 引入了新的双臂平台 DOS-W1配备三角尖端夹具同时保留 Aloha这样一来“双臂表现”就不再等同于“在 Aloha 上的表现”。这件事很重要因为它开始把“任务表现”和“特定机器适配”拆开来看了。官方统计里DOS-W1 承担 12 个任务Aloha 8 个其余由 ARX5 和 UR5 分担。06 横向看Table30 V2到底站在哪条路线上如果把它放进整个评测版图里看Table30 V2 的位置会更清楚。和原版 Table30比它最大的变化不是“第二代更难”而是从测单点能力转向测泛化能力。原版更像在回答你能不能把这 30 类桌面操作做出来V2 则在追问你到底是学会了还是只是在一个窄分布里调通了。和单任务榜单比它最强的地方是不再奖励局部最优。单任务榜单当然有价值它能看清一个方法在某类技能上的上限。但它也天然容易把行业带进专项刷分的路径依赖里。Table30 V2 的多任务、Zero-Shot、OOD 设计本质上是在把具身评测从“奥赛题思维”拉回“物理通识考试思维”。和用户本地跑完再交视频的分布式评测路线相比Table30 V2 仍然坚持集中式、在线、真机原生这条路。有些系统靠视频回传来扩大规模而 RoboChallenge 这一系更强调统一环境、统一硬件和在线执行。前者更容易扩展后者更容易控制变量。Table30 V2 显然押注的是后者。这也解释了为什么它不是简单的新榜单而更像一次评测哲学的切换。07 它真正改写的是行业怎么考试Table30 V2 最重要的不是新增了多少任务也不是吞吐量提了多少。而是它把具身智能里一个越来越尖锐的问题正式摆到台面上来了当单任务 fine-tune 已经越来越强下一代具身模型到底该凭什么分出高下Table30 V2 给出的答案很明确不是凭你能把某一道题调到多高而是凭你能不能拿一个更统一的模型去面对更多任务、更多物体、更多环境变化还保持稳定表现。它不再想测“最会考试的人”而是想测“真正拥有具身智能的人”。这件事的意义比一个 leaderboard 更大。因为具身智能走到今天行业最需要的已经不是另一个剪得更漂亮的 demo或者另一个单项冠军。行业真正缺的是一套越来越接近现实部署逻辑的评测题不能太假规则不能太松系统不能太慢结果还得尽量公平。RoboChallenge 用 4 万多次真机测试把这个考场搭到了第二阶段而 Table30 V2开始把泛化这件事认真写进考纲。这才是它最值得重视的地方。不是榜单升级了。而是具身智能终于开始换一种方式被认真地评判了。最后也欢迎大家关注RoboChallenge CVPR 2026 Workshop和行业一起共建真机评测的新时代。重磅VLARL方向首个系统教程来啦Online RL/Offline RL/test time RL等具身智能的WAM与世界模型一份完整指南一览具身智能的行业全局从产品经理的角度出发推荐阅读我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务好用高性价比面向具身科研领域打造的轻量级机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法Diffusion Policy在具身智能领域是怎么应用的为什么如此重要具身智能视觉语言动作模型VLA怎么入门具身智能与传统机器人任务有什么区别主流方案有哪些1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等