存储成本压力上升期，面壁智能1.58-bit模型能缓解“显存焦虑”吗？文章

36kr 资讯2026-05-25NEWSzh作者: 36氪的朋友们

摘要

图源：界面新闻 5月25日，面壁智能联合清华大学、OpenBMB开源社区正式发布BitCPM-CANN。这是一个基于国产算力平台原生训练并开源的1.58-bit三值权重大模型系列，涵盖0.5B、1B、3B、8B四种尺寸版本。相比BF16精度，BitCPM的1.58-bit技术意义在于，通过将权重限制在-1、0、1三个值，释放推理侧约6倍的显存，让设备在同等物理内存约束下运行更大参数规模模型。例如，过去只能跑4B模型的芯片，可以在同样内存消耗下运行8B模型。 BitCPM-CANN的发布正值全球半导体供应链的动荡期。高盛近期报告指出，受AI服务器需求爆发影响，继续上调2026年存储价格预期，DRAM涨幅250%-280%，NAND涨幅200%-250%，HBM因技术门槛与产能约束涨幅更高。面壁智能AI Infra负责人李宇轩在接受界面新闻等媒体采访时指出，内存成为了大模型行业的稀缺资源，其价格在过去一年内翻了约5倍，这导致手机及终端厂商在产品迭代中存在显存焦虑。对此，原生低比特训练的端侧AI模型，能够有效平衡AI性能与显存消耗吗？据界面新闻记者了解，针对该问题的传统方法是后训练量化，即先用高精度（如 BF16）完成模型训练，再将其权重压缩至INT8或INT4，但性能损失问题较为突出。面壁智能的方案是先通过量化感知训练（QAT）让模型进入稳定的收敛态，随后再引入全精度模型进行知识传递。由于低比特模型对数据质量极度敏感，团队通过更精细的数据配比与教师模式，以抵消位宽压缩带来的信息损失。在训练范式上，李宇轩将这一先量化、再蒸馏的策略比作教导一个天资有限但勤奋的学生，如果过早引入复杂的蒸馏机制，模型反而难以收敛。此外，李宇轩认为，从技术逻辑上看，1.58-bit被视为模型压缩的“数学甜蜜点”。虽然1-bit（二值）理论上压缩比更高，但无法同时兼顾数学表达的对称性与含零特性，导致精度损失巨大。相比之下，1.58-bit能在保持极致压缩比的同时，最大限度保留权重的表达丰富度。数据显示，BitCPM系列模型在常识、阅读理解等11项核心任务中，保留了全精度模型90%至97%的能力。“如何用最便宜的芯片跑出最大的智能，这就是端侧模型最核心的问题。”李宇轩强调，“1.58-bit是单位内存占用下，知识密度承载量最优的状态。”…

摘要可能不完整，可查看原文

存储成本压力上升期，面壁智能1.58-bit模型能缓解“显存焦虑”吗？文章

摘要

相关事件

相关公司查看全部 (5)

相关人物

相关产品查看全部 (1)

相关技术查看全部 (9)

存储成本压力上升期，面壁智能1.58-bit模型能缓解“显存焦虑”吗？ 文章

摘要

相关事件

相关公司查看全部 (5)

相关人物

相关产品查看全部 (1)

相关技术查看全部 (9)

存储成本压力上升期，面壁智能1.58-bit模型能缓解“显存焦虑”吗？文章