摘要
今日,斯坦福大学教授、空间智能创业公司World Labs联合创始人兼CEO李飞飞(Fei-Fei Li)与团队发布新文章《世界模型的功能分类》,系统拆解了当下被广泛使用却释义混乱的“世界模型”。 文章指出,计算机视觉、机器人、强化学习和生成式AI各领域的人士都宣称其在研发世界模型,但各方所指内涵截然不同。李飞飞试图从强化学习经典的POMDP(部分可观测马尔可夫决策过程)框架出发,为这一概念建立清晰的功能分类体系。 李飞飞将世界模型归纳为渲染器(renderer)、仿真器(simulator)、规划器(planner)三大功能类别,并重点论证了在三者中受关注度最低的仿真器,恰恰具备最深远的产业价值与最棘手的技术难题。 她进一步提出,三类模型底层共用同一套世界知识,当前最重要的趋势是三者边界正不断消融,最终将走向能够灵活切换输出形式的大一统世界基础模型。 ▲李飞飞发布《世界模型的功能分类》文章推文(图源:X) 李飞飞在文中提出了以下几个核心观点: 1、世界模型已成为AI领域最重要、也最被滥用的术语之一,各领域所指内涵截然不同,亟需精准定义。 2、世界模型的技术定义源自强化学习的POMDP框架,即智能体、动作、环境状态、观测信息构成的交互闭环,各类世界模型本质都是这套闭环的不同实现方向。 3、世界模型可分为三大功能类别:渲染器输出供人观看的像素画面、仿真器输出贴合客观规律的环境状态、规划器输出智能体的动作指令。 4、三类模型底层并不割裂,几何、物理、动力学这套描述世界运行逻辑的基础知识是三者共用的底层原理。 5、渲染器商业化最成熟但能力有上限,规划器前景最受期待但尚处起步阶段,仿真器关注度最低却是衔接二者的桥梁与核心支柱。 6、仿真赛道集中了AI领域的诸多棘手难题,包括三维数据稀缺、仿真与现实的域差、生成式仿真的几何隐患、多物理场仿真的高算力成本等。 7、当前最关键的发展趋势是三类模型相互融合,技术演进的终极形态是能根据下游需求灵活切换输出形式的大一统世界基础模型。 8、在同一套模型架构中平衡各项需求,是当前世界模型领域最核心的攻关课题。
相关事件查看全部 (1)
相关公司查看全部 (2)
相关产品
暂无数据