摘要
前沿大模型的涨价游戏,还能玩多久? 今年1月至今,GPU租赁价格上涨超过两倍。 根据Counterpoint 2月发布的《内存价格追踪报告》,2026年第一季度至今,内存价格环比上涨80%-90%,创下前所未有的大幅飙升。 这种价格上涨,自然传递到了下游。 Epoch AI刚刚发布的《梯度更新》报告,做了一件简单粗暴的事:把全球所有Blackwell芯片能处理的Token数量算出来,再和实际需求一比。 结论只有一个字——不够。 Token洪流吞没一切 先看供给侧。 Epoch AI的模型以Kimi K2.6为基准——万亿参数、320亿活跃参数的MoE架构。 在8000:1000的输入输出比下,全球Blackwell集群的理论极限是每秒约200亿输出Token。 听起来很多?换算一下:够地球上每个人每月用700万Token。 但这是理想情况。一旦上下文窗口拉长到128k,吞吐量直接暴跌50倍,降到每秒约5亿Token。 再看需求侧。 Google刚刚披露,自家每秒处理约12亿Token(输入+输出)。 按8k:1k请求比例换算,每秒输出Token约1.3亿。Exponential View估算,Google大约占全球Token需求的25%。 这意味着当前全球Token需求,用Blackwell全产能、全给昂贵的万亿参数模型去跑,勉强能撑住。 但需求在以什么速度增长? 每年10倍。 自2024年以来,Google处理的Token量年增10倍,其他供应商的增速也差不多。 而供给侧呢?全球AI算力年增3.4倍,芯片内存带宽年增4.1倍。 供给3.4倍 vs 需求10倍。差距每年都在撕裂。 Meta员工一天烧100万Token 算力紧缺不是抽象数字。 看看企业内部在发生什么。 The Information报道,Meta的8.5万名员工每月消耗60万亿Token。 换算下来,每位员工每天烧掉约100万输出Token。 Apple更猛。 部分工程团队被允许每天在Token上花费300美元——按Kimi K2.6的价格算,够一个人一天生成2500万输出Token。 这还只是两家公司。