清华团队做了个具身智能大脑,有点东西!
这是苍何的第 519 篇原创大家好我是苍何。前几天好基友甲木带我去了趟清华大学参加一个机器人发布会。发布方是一念 Unisonmind清华团队发布的产品叫 UnisonMind。简单说这是一个端侧部署、实时运行的原生多模态模型。支持流式输入与持续状态更新。行业首发。它同时进入了三种完全不同形态的机器机器狗、人形机器人、电动轮椅。注意是同一个认知内核直接迁移到不同的硬件载体上。身体和底层运动控制可以不同但上层大脑共享同一套认知系统持续判断「我在哪里、周围发生了什么、人希望我做什么、下一步该说什么或做什么」。这个思路在行业里讨论了很久但真正做出来并在 20 多人的真实现场演示的一念是我见到的第一家。下面聊聊我在现场看到的几个演示。现场演示发布会现场的任务都是由人在运行过程中实时提出的不是提前编排好的固定脚本。1、数乒乓球。工作人员在机器狗面前快速抛撒乒乓球速度很快数量不少。机器狗需要实时追踪每一个球的运动轨迹边看边数最后报出准确数量。这个任务对人来说不算难但对机器来说就很考验了。因为球的间隔、速度、轨迹都没有固定规律稍有遗漏计数就会出错。这个演示之所以值得单独说是因为它直接体现了一念在技术上的一个关键差异点后面会展开聊。2、倒背数字。工作人员随机念一长串数字机器狗听完之后倒着背出来。这考验的可不只是「听见了」还得「记住了还能倒序处理」。本质上是实时认知能力的一个测试系统得在连续输入中保持状态还能按新的要求重组输出。3、找人。告诉机器狗「帮我找穿白衬衫的那个人」它在一群人里面锁定目标。没有提前录入人脸信息纯靠视觉理解和语义匹配现场实时找。有意思的是现场有个人披着外套机器狗注意到里面穿的也是白衬衫还主动补充了这个细节。这种临场的语义补充能力比单纯的目标识别要有意思得多。4、轮椅自主导航去买咖啡。这个演示我个人最关注。一台搭载了 UnisonMind 的电动轮椅用户只需要说「我想喝杯咖啡」。轮椅自动识别标牌、判断空间关系、规划路线、避开障碍带着用户去到咖啡店。对于行动不便的人来说不用再依赖别人推轮椅不用反复解释「往左、往右、停一下」。说一句话轮椅就懂了。讲真的这个场景让我在现场沉默了好一会儿。技术不就应该用在这种地方吗理解这次发布的一个关键技术点看完演示我比较好奇的是凭什么一念的机器狗能数清楚快速飞过的乒乓球这里面有一个核心的技术差异流式输入与持续状态更新。先说一个前提真实世界不会暂停等模型算完。人会移动球会连续起落声音会重叠新指令随时到来原来的判断也可能下一秒失效。现在大部分多模态模型处理视频的方式是「抽帧」从视频中按固定间隔抽取若干关键帧再统一分析。这种方式更适合视频摘要、内容识别这类事后分析的场景。但数乒乓球这种任务颠球的间隔、速度和轨迹没有固定规律一次有效触球可能只持续很短时间。如果两个采样点之间刚好漏掉一次触球累计结果就会出错。UnisonMind 的做法是流式处理视频信息持续进入系统沿着真实时间轴维护一个不断演化的世界状态每一帧都在更新。相当于从「收到消息才上线」变成了「始终在场一直知道刚才发生了什么、现在发生了什么」。这也是为什么它能在连续运动中数对乒乓球能在连续输入中记住一长串数字并倒序输出。感知、推理、表达和行动跟真实世界共享的是同一条时间线。「31」技术框架一念科技给 Physical AGI 定义了一个「31」的必要条件统一的多模态认知。由一个统一的认知内核来理解不同的信息输入视频、图像、语音、文本以及设备自身状态都进入同一个世界表征。不再是视觉一个模型、语音一个模型、动作交给另一个系统临时拼接。理解和生成统一。它不只「看懂」还要根据任务说话、移动、交互让理解和输出属于同一个认知过程。输出也不只是文字可以按任务需要生成动作、视频、音频或文本并通过行动再次改变外部世界形成闭环。流式输入输出。就是上面聊的那个持续接收信息持续更新内部状态同时保持原任务不丢失。任务可以被打断、修正和重组而不是只能执行预先写好的完整脚本。加上全端侧部署。核心大脑完整运行在设备本体上不把核心认知托管在远程云端。低延迟不用等网络往返。弱网、断网场景也能正常工作。隐私和安全也更可控。想想看如果轮椅每个指令都得先传到云端再传回来万一网断了怎么办端侧部署在这些场景下是刚需。真实现场包括不完美的部分发布会现场有 20 多位来宾全程录像持续走动的人群、临时指令、声音干扰和硬件状态共同构成了一个难以完全预编排的真实环境。说句公道话现场演示并不是每一次都完美。轮椅在演示中出现过一次硬件异常原地转了好几圈。但有意思的是即便在这种状态下它仍然能围绕自身状态跟人继续对话。Physical AI 真正面对的考验不只是「成功完成一次任务」还包括意外发生后能否感知、回应、调整并安全继续。物理世界本来就有噪声、遮挡、误解和各种故障真实现场比精心剪辑的 Demo 更有说服力。我的一些行业观察从行业视角聊几点。目前具身智能赛道的主流做法还是「感知模块 决策模块 执行模块」的分层架构每一层各自训练中间用规则或接口串起来。这种方案工程上可控但上限也明显模块之间信息损耗大端到端的响应链路长很难做到真正的实时。一念这次的思路是把感知、认知、生成压到一个统一的原生多模态模型里再加上端侧部署从架构层面缩短这条链路。方向上我认为是对的。但现阶段的问题也摆在那里。现场部分场景下响应偏慢复杂指令的理解准确率有波动。端侧算力的天花板摆在那里模型压缩和推理效率的优化还有很长的路要走。另外跨本体迁移目前展示的三种载体运动复杂度差异很大。统一大脑在认知层做到了共享但底层运动控制因硬件而异适配的深度和泛化能力还需要更多场景去验证。总的来说一念这次展示的是一条有潜力的技术路径可能走到了 Physical AGI 的门口但完整的 Physical AGI 仍需更广泛、严格和长期的验证。写在最后具身智能这个赛道离大规模商用还有距离这是事实。但「跨本体统一认知」这个思路确实值得关注。以前做机器人思路是「一种机器人配一套方案」成本高周期长很难规模化。如果真能做到一个大脑适配多种身体商业化路径就完全不一样了。机器狗能用人形机器人能用轮椅也能用。未来扫地机器人、送餐机器人是不是也能用这才是平台化的想象空间。聊点我个人对「端侧实时多模态大脑」这条路线的看法。目前行业里做具身智能大部分公司的多模态能力依赖云端大模型。机器人本地做感知和基础控制复杂的理解和决策丢给云端处理再把结果传回来。这条路能跑但天花板很明显网络延迟、隐私风险、离线场景直接趴窝。一念选的是另一条路把多模态大脑压到端侧。这条路难度大得多因为端侧算力有限你得在一块芯片上同时跑视觉、语音、认知、生成还要保证实时性。但一旦跑通壁垒也高得多。因为端侧部署意味着机器人可以在任何网络环境下工作响应速度由本地硬件决定不受带宽和服务器排队的影响。这对于轮椅、机器狗这类需要即时反应的场景来说几乎是必选项。再说流式处理这个点。现在很多所谓的多模态模型本质上还是「看图说话」给一张图输出一段文字。一念做的是持续的视频流理解模型的状态随着输入不断更新类似人类的注意力机制一直在看一直在处理。这个能力在实验室里有人在研究但做到端侧实时跑起来并在真实现场做了验证的确实少见。当然「少见」不等于「成熟」。端侧算力的瓶颈、模型压缩带来的精度损失、不同载体之间运动控制的适配深度这些问题都还在路上。但我觉得具身智能这个赛道最终一定会走向端侧化和实时化。云端方案可以作为过渡但终局一定是端侧。就像手机从功能机到智能机最终所有计算都发生在你手里那块芯片上。机器人也一样大脑迟早要长在自己身体里。一念这次发布至少让我看到了这个方向上一个可信的进展。至于能不能跑到终局时间会给答案。我一直觉得技术的终极浪漫是让普通人的日常生活变得更有尊严。比起让你刷短视频更上瘾让一个行动不便的人能自己去买杯咖啡才更值得投入。你觉得这种「一个大脑多种身体」的路线能跑通吗评论区聊聊。