Google I/O之后,AI的参照系变了 文章

36kr 资讯2026-05-21NEWSzh作者: 市象

摘要

当前,Coding 时代的行业共识已经确立。 “尽管我们上调了Token价格,客户接受度依然很高,需求持续旺盛,甚至当前供应仍无法完全满足需求,仍有大量客户在排队等待服务。” 上周2026财年Q4财报会议上,阿里巴巴CEO吴泳铭用一番发言,道出Coding蛋糕的庞大。 AI 终于从发布会走进了企业的生产预算,阿里解决了第一个问题:AI 有没有真实需求? 第二个问题来自Google:AI下一步会长成什么样? 北京时间5 月 20 日凌晨,Google I/O 2026如期开场。 这届大会的亮点,无疑是智能体与多模态能力的展示。在Gemini Omni Flash的发布中,Google对其有一段精确定义——支持任何模态的输入,生成任何模态的输出。 大会展示的视频输出只是一个开始,按照Google的规划,Omni有能力实现文图音视的全模态输出,并基于Gemini的世界模型能力,生成重力、动力更精确的物理效果。 对Google来说,Omni不再是一个视频模型,而是真正的超级内容创作入口,进而嵌入所有的创作者工作流程,创造一个比Coding想象空间更大的多模态应用市场。 相较编程,这是AI的真正富矿。从行业通用定价来看,每百万 tokens 的价格,视频模型要远高于图片和文本。这意味着,只要token调用量提升,视频将创造远超文本的API价值。 更重要的是,多模态正在迎来一个历史性的技术拐点。 对比早期文本模型+图像模型+视频模型的简单拼接模式,在2026年,以 Google Gemini Omni 为代表的统一基座全模态模型的出现,标志着行业即将进入一个全新的时代。 多模态,下一个Token拐点 OpenAI 首席执行官Sam Altman没想到的是,100万用户规模的成绩,发布初的ChatGPT要5天实现,GPT-4o图像生成只需要1个小时。 凭借高度还原的吉卜力画风,GPT-4o生图功能上线即爆红,OpenAI 不得不限制免费资格,并恳求用户不要再疯狂生图,让团队睡个好觉。 今年发布的图像生成模型Image 2,一小时全球新增用户破180万,再次打破GPT-4o纪录,一周时间内,全球活跃

摘要可能不完整,可查看原文