小米MiMo要蹭着DeepSeek蹦上牌桌 文章

36kr 资讯2026-05-28NEWSzh作者: 硅星人Pro

摘要

5 月 27 日,小米把 MiMo-V2.5 系列 API 永久降价。 MiMo-V2.5-Pro 的输入缓存命中价格降到 0.025 元/百万 tokens,输入未命中价格 3 元/百万 tokens,输出价格 6 元/百万 tokens。普通版 MiMo-V2.5 更低:缓存命中 0.02 元,输入未命中 1 元,输出 2 元。 这不是一次常规促销。 因为把价格横向一比就会发现,小米这次不是随便降价,而是直接对标 DeepSeek。 MiMo-V2.5-Pro 对 DeepSeek V4-Pro,MiMo-V2.5 对 DeepSeek V4-Flash。 如今,DeepSeek 已经不只是一个模型名字。至少在国产大模型市场里,它正在变成一把价格尺子。 这把尺子反复抽打各大模型公司:你的模型卖多少钱啊? 而这样一个问题平等的提给所有人,也就创造了一些新的机会,如小米MiMo这样的后来者,可以比其他模型身段更灵活,进而可以“蹭”着DeepSeek赌出一个上牌桌的机会。 1 token 的价格划分越来越细了 先来看看降价如何发生。 在这张价格表里,最重要的细节是它把缓存命中和缓存未命中明确拆成了两种价格。 这已经是今天大模型价格战的暗线。 所谓缓存命中,说白了就是:如果这次请求的前缀内容,和之前某次请求的前缀内容一样,平台就不用从头再算一遍,而是复用之前保存下来的中间结果。 大模型处理长上下文时,成本大体分两段。 第一段叫 prefill,可以理解成“读题”。系统提示词、项目代码、企业文档、历史对话,都要先被模型读进去。 第二段叫 decode,可以理解成“答题”。模型再一个 token 一个 token 往外生成回答。 过去大家谈 API 价格,主要看输入和输出。但现在大模型越来越多地用在 Agent、Coding、知识库和长对话里,很多输入其实是重复的。 代码助手每次都要看同一个仓库,企业助手每次都要读同一批制度文档,Agent 每一轮都带着同一套工具说明和系统规则。 可能真正的不同只是最后一句指令。 这时候,缓存就成了成本结构里的关键变量。 第一次做题要打草稿,第二次题目前半段一样,就不用重新打草稿。缓存命中价格之所以能低到离谱,原因就在这里。 以 MiMo-V2.