蔡崇信吴泳铭要的回报,阿里云能从火山引擎手里抢回来吗? 文章

36kr 资讯2026-05-21NEWSzh作者: 强调Next

摘要

5月20日,阿里云发布新一代旗舰模型Qwen3.7-Max。当晚蔡崇信和吴泳铭发布股东信表态,再次强调阿里云的战略地位。 两周前,火山引擎刚刚披露一组数字:根据IDC报告 2025年全年,火山引擎在中国企业级MaaS市场的Token调用量份额达到49.5%,阿里云28%,百度10%。 阿里云的模型更强了。但在调用量这张榜单上,它还落在火山引擎后面将近二十个百分点。 而就在Qwen3.7-Max发布会的前一天,阿里云高调发布了另一个行业榜单。Omdia统计的包含IaaS、PaaS、MaaS全链条的AI云整体收入,阿里云以35.8%排在第一,火山引擎14.8%。 两张榜单,两个第一,两种叙事,足以窥见双方的竞争烈度。两张榜单背后,谁在建真正的护城河,还没有答案。 01.评测的游戏,已经不只是跑分 昨天的发布会上,阿里云列出的评测清单比以往长了很多。除了GPQA、数学、代码这些通用项,还出现了SWE-Pro、MCP-Mark、Qwen SVG、Qwen World Bench、Qwenclaw、ClawEval等一批更偏Agent场景的测试。 大模型行业跑了三年基准测试,MMLU、HumanEval、Arena已经被磨得快没有区分度了,回答不了“谁更强”这个问题。 于是新一轮竞争转移到了出题权上。Agent任务的评测更复杂,变量更多:模型本身的能力、工具接口质量、任务拆解方式、评分规则,每一个环节都能影响最终结果。这给了有研发余量的大厂足够的操作空间,他们把自己擅长的任务形态写进评测框架,在新赛道上先占有利位置。 OpenAI有自己的Evals,Anthropic有Claude工程任务集,Google有AIME和代码竞赛系列。阿里云这次密集推出Qwen前缀的专项测试,逻辑一样。火山引擎的豆包大模型2.0在今年2月密集更新了多模态能力评测维度,重点强调OS Agent和复杂指令遵循,刻意回避了与Qwen正面竞争的赛道选择。 各家都在用自己擅长的题目给自己打分。阿里出的题阿里能赢,火山出的题火山能赢,有参考意义,但不大。 旗舰模型之间的能力差距还在快速收窄,benchmark的边际解释力也在同步下降。一个模型在某张榜单领先0.5分,未必能转化为真实业务中的稳定优势。企业客户最终关心的不是谁拿了第一,而是模型能不能持续完成

摘要可能不完整,可查看原文