老黄的Cosmos 3刚发一天，就被一家中国公司反超了文章

36kr 资讯2026-06-03NEWSzh作者: 机器之心

摘要

6 月 1 日，老黄在 GTC 上用了不小的篇幅讲物理 AI 和具身智能，并重磅发布了 Cosmos 3。英伟达将其定义为面向 Physical AI 的最新前沿模型，也是全球首个完全开放的全能模型，原生具备视觉推理、世界生成和动作生成能力。老黄自豪地表示，Cosmos 3 在全球各大排行榜上位列开放模型第一。然而仅仅一天后，RoboArena 榜单更新，中国公司千寻智能的 Spirit v1.6 反超 Cosmos 3，登上全球第一。 RoboArena 为何值得关注？因为它切中了当前机器人基础模型评测的一个核心问题：很多模型可以在仿真环境或静态 benchmark 上表现很好，但一到真实机器人、真实物体、真实误差，就很难稳定复现。我们可以把 RoboArena 理解为 LMArena 的具身机器人版本，只不过，LMArena 比的是大模型回答质量，RoboArena 比的是机器人策略在真实世界中完成任务的能力。RoboArena 由 UC Berkeley、Stanford、NVIDIA 等机构参与发起，相关论文入选 CoRL 2025 Oral。具体来看，RoboArena 的机制可以拆成四点：分布式协作、双盲对决、Elo 式动态排名、开放评测网络。分布式协作扩大了任务和环境的覆盖面；双盲对决降低了评测中的主观偏见；Elo 排名让榜单像体育赛事一样持续更新；开放评测网络则让更多模型可以被放到同一个真实世界擂台上检验。因此，RoboArena 的意义在于把具身智能评测从「静态跑分」推向了「真机对抗」。在这个背景下，千寻智能成为首个在这一由硅谷巨头和顶尖高校共同主导的「客场」榜单上拿下全球第一的中国企业，其意义也不只是一次排名领先，更说明千寻智能在多任务执行、真实环境适应和泛化能力上，已经进入全球第一梯队。 Spirit v1.6 到底凭什么赢？榜单上的结果，最终只是数字。更有说服力的，还是 Spirit v1.6 在真实任务中的操作表现。我们来看几组双盲对比视频。第一组任务：打开笔记本这并不是一次简单抓取。机器人需要先识别笔记本的位置和朝向，再判断从哪里接触、如何施力，以及手部和机械臂如何配合，最后完成翻开动作。中间任何一个环节出错，任务都可能失败。

老黄的Cosmos 3刚发一天，就被一家中国公司反超了文章

摘要

相关事件

相关公司查看全部 (4)

相关人物查看全部 (2)

相关产品查看全部 (18)

相关技术查看全部 (6)

老黄的Cosmos 3刚发一天，就被一家中国公司反超了 文章

摘要

相关事件

相关公司查看全部 (4)

相关人物查看全部 (2)

相关产品查看全部 (18)

相关技术查看全部 (6)

老黄的Cosmos 3刚发一天，就被一家中国公司反超了文章