英伟达推出Cosmos 3:开放全能模型,将物理AI训练评估周期从数月缩至数天
【导语英伟达正式推出基于突破性Transformer混合架构的物理AI开放世界基础模型Cosmos 3将视觉推理等功能结合还缩短了训练和评估周期。同时推出NVIDIA Cosmos联盟推动下一代世界模型发展。】全能开放模型Cosmos 3革新物理AICosmos 3是世界上第一个完全开放的全能模型能以领先的物理精度原生理解和生成文本、图像、视频、环境声音和动作。它将物理AI的训练和评估周期从数月缩短到数天为开发者在构建机器人、自动驾驶汽车和视觉AI方面带来代际飞跃。创新架构解决物理AI根本挑战Cosmos 3采用mixture - of - transformers架构将reasoning transformer与expert generation transformer相结合。该架构使模型能够在生成视频和动作轨迹之前理解对象交互、运动和时空关系解决了物理AI中让机器人、自动驾驶汽车等在训练数据有限和仿真堆栈分散情况下在现实世界泛化的根本挑战。它基于最大的多模态物理AI数据集之一进行训练包含数十亿个涵盖文本、图像、视频、声音和动作轨迹的样本。卓越性能多测试排名领先基准测试结果显示在开源模型中Cosmos 3在世界生成准确率方面于Artificial Analysis、Physics - IQ、PAI - Bench和R - Bench测试中均排名第一在动作策略方面在RoboLab和RoboArena测试中排名第一在视觉理解方面在VANTAGE - Bench和TAR排行榜上名列前茅。丰富产品线满足不同开发需求Cosmos 3产品线为开发者提供了适用于物理AI开发不同阶段的选择。Cosmos 3 Super适用于需要最高物理精度和生成质量的训练后机器人和AV模型Cosmos 3 Nano可在极短时间内实现高质量视频和动作推理Cosmos 3 Edge即将推出用于在边缘进行实时推理。编辑观点Cosmos 3的推出为物理AI领域带来重大突破其开放特性和卓越性能有望推动相关产业快速发展联盟的成立也将加速下一代世界模型的进步。