蔡崇信吴泳铭要的回报，阿里云能从火山引擎手里抢回来吗？文章

36kr 资讯2026-05-21NEWSzh作者: 强调Next

摘要

5月20日，阿里云发布新一代旗舰模型Qwen3.7-Max。当晚蔡崇信和吴泳铭发布股东信表态，再次强调阿里云的战略地位。两周前，火山引擎刚刚披露一组数字：根据IDC报告 2025年全年，火山引擎在中国企业级MaaS市场的Token调用量份额达到49.5%，阿里云28%，百度10%。阿里云的模型更强了。但在调用量这张榜单上，它还落在火山引擎后面将近二十个百分点。而就在Qwen3.7-Max发布会的前一天，阿里云高调发布了另一个行业榜单。Omdia统计的包含IaaS、PaaS、MaaS全链条的AI云整体收入，阿里云以35.8%排在第一，火山引擎14.8%。两张榜单，两个第一，两种叙事，足以窥见双方的竞争烈度。两张榜单背后，谁在建真正的护城河，还没有答案。 01.评测的游戏，已经不只是跑分昨天的发布会上，阿里云列出的评测清单比以往长了很多。除了GPQA、数学、代码这些通用项，还出现了SWE-Pro、MCP-Mark、Qwen SVG、Qwen World Bench、Qwenclaw、ClawEval等一批更偏Agent场景的测试。大模型行业跑了三年基准测试，MMLU、HumanEval、Arena已经被磨得快没有区分度了，回答不了“谁更强”这个问题。于是新一轮竞争转移到了出题权上。Agent任务的评测更复杂，变量更多：模型本身的能力、工具接口质量、任务拆解方式、评分规则，每一个环节都能影响最终结果。这给了有研发余量的大厂足够的操作空间，他们把自己擅长的任务形态写进评测框架，在新赛道上先占有利位置。 OpenAI有自己的Evals，Anthropic有Claude工程任务集，Google有AIME和代码竞赛系列。阿里云这次密集推出Qwen前缀的专项测试，逻辑一样。火山引擎的豆包大模型2.0在今年2月密集更新了多模态能力评测维度，重点强调OS Agent和复杂指令遵循，刻意回避了与Qwen正面竞争的赛道选择。各家都在用自己擅长的题目给自己打分。阿里出的题阿里能赢，火山出的题火山能赢，有参考意义，但不大。旗舰模型之间的能力差距还在快速收窄，benchmark的边际解释力也在同步下降。一个模型在某张榜单领先0.5分，未必能转化为真实业务中的稳定优势。企业客户最终关心的不是谁拿了第一，而是模型能不能持续完成

摘要可能不完整，可查看原文

蔡崇信吴泳铭要的回报，阿里云能从火山引擎手里抢回来吗？文章

摘要

相关事件

相关公司查看全部 (8)

相关人物查看全部 (2)

相关产品查看全部 (11)

相关技术查看全部 (5)

蔡崇信吴泳铭要的回报，阿里云能从火山引擎手里抢回来吗？ 文章

摘要

相关事件

相关公司查看全部 (8)

相关人物查看全部 (2)

相关产品查看全部 (11)

相关技术查看全部 (5)

蔡崇信吴泳铭要的回报，阿里云能从火山引擎手里抢回来吗？文章