老黄的Cosmos 3刚发一天,就被一家中国公司反超了 文章

36kr 资讯2026-06-03NEWSzh作者: 机器之心

摘要

6 月 1 日,老黄在 GTC 上用了不小的篇幅讲物理 AI 和具身智能,并重磅发布了 Cosmos 3。英伟达将其定义为面向 Physical AI 的最新前沿模型,也是全球首个完全开放的全能模型,原生具备视觉推理、世界生成和动作生成能力。 老黄自豪地表示,Cosmos 3 在全球各大排行榜上位列开放模型第一。 然而仅仅一天后,RoboArena 榜单更新,中国公司千寻智能的 Spirit v1.6 反超 Cosmos 3,登上全球第一。 RoboArena 为何值得关注? 因为它切中了当前机器人基础模型评测的一个核心问题:很多模型可以在仿真环境或静态 benchmark 上表现很好,但一到真实机器人、真实物体、真实误差,就很难稳定复现。 我们可以把 RoboArena 理解为 LMArena 的具身机器人版本,只不过,LMArena 比的是大模型回答质量,RoboArena 比的是机器人策略在真实世界中完成任务的能力。RoboArena 由 UC Berkeley、Stanford、NVIDIA 等机构参与发起,相关论文入选 CoRL 2025 Oral。 具体来看,RoboArena 的机制可以拆成四点:分布式协作、双盲对决、Elo 式动态排名、开放评测网络。分布式协作扩大了任务和环境的覆盖面;双盲对决降低了评测中的主观偏见;Elo 排名让榜单像体育赛事一样持续更新;开放评测网络则让更多模型可以被放到同一个真实世界擂台上检验。 因此,RoboArena 的意义在于把具身智能评测从「静态跑分」推向了「真机对抗」。 在这个背景下,千寻智能成为首个在这一由硅谷巨头和顶尖高校共同主导的「客场」榜单上拿下全球第一的中国企业,其意义也不只是一次排名领先,更说明千寻智能在多任务执行、真实环境适应和泛化能力上,已经进入全球第一梯队。 Spirit v1.6 到底凭什么赢? 榜单上的结果,最终只是数字。更有说服力的,还是 Spirit v1.6 在真实任务中的操作表现。我们来看几组双盲对比视频。 第一组任务:打开笔记本 这并不是一次简单抓取。机器人需要先识别笔记本的位置和朝向,再判断从哪里接触、如何施力,以及手部和机械臂如何配合,最后完成翻开动作。中间任何一个环节出错,任务都可能失败。