摘要
文|王欣逸 李嘉星 编辑|周鑫雨 一家Day 1就在做多模态大模型的公司,无法拒绝参与到具身智能和世界模型热潮之中。 2026年,随着Seedance 2.0、GPT Image 2.0等模型的爆火,多模态能力越来越成为行业内绕不开的关键词。5月19日,智象未来首届开放日上,智象未来给出了他们的判断和回答:“原生多模态是实现AGI的必经之路。” 本场开放日活动主题为“Imaging the World”,不过,对于智象未来而言,「World」的重要性,几乎要放在「Video」和「Image」之前了。 “我们的终极目标是打造世界模型。”智象未来CEO梅涛在活动中反复提及这一观点,在他的定义中,智象未来要做一家原生多模态大模型公司。 在梅涛看来,一个真正的世界模型需要同时满足多个条件:掌握物理规律、解决长时间跨度的因果推理、实现全模态交互以及绝对的安全性。 当下业界主流的世界模型训练路线可以分为李飞飞的“生成3D世界”一派,以及Yann LeCun的“自监督预测世界”一派。 智象未来则做出了不同的选择——做算法和架构层的创新,从世界模型训练中最稀缺、成本最高的多模态数据入手,率先聚焦在视频、图像、3D交互等数据的生成上,用低成本的合成数据对抗行业数据稀缺瓶颈,并从中积累一些在世界模型上可复用的视觉模型能力。 具体而言,他们要让多模态模型从构建之初就拥有理解真实世界规则的能力。原生全模态Unified Transformer(UiT)架构能做到“Any to Any”(任何形式输入支持任何形式输出),这也正是世界模型所需要的能力:在统一架构中理解、生成并预测现实世界的不同状态。 过去一段时间,他们做出了从“模型即产品”到“做Agent平台”的转变。 作为一家主要面向To B的公司,他们概括自己的打法是做一个“1+1+3”MaaS(软件即服务)平台,分别为底层的HiDream系列大模型、中间层的HiHarness企业服务平台,以及上层三大场景的应用:商业营销、影视创作、社媒创作。 概念火热的同时,资本也在不断押注。继上个月拿到安徽省产投、东方富海等机构参投的5亿人民币B轮融资之后,智象未来又火速官宣了下一轮融资,两周内再次完成亿元级新一轮融资。