摘要
图源:界面新闻 5月25日,面壁智能联合清华大学、OpenBMB开源社区正式发布BitCPM-CANN。这是一个基于国产算力平台原生训练并开源的1.58-bit三值权重大模型系列,涵盖0.5B、1B、3B、8B四种尺寸版本。 相比BF16精度,BitCPM的1.58-bit技术意义在于,通过将权重限制在-1、0、1三个值,释放推理侧约6倍的显存,让设备在同等物理内存约束下运行更大参数规模模型。例如,过去只能跑4B模型的芯片,可以在同样内存消耗下运行8B模型。 BitCPM-CANN的发布正值全球半导体供应链的动荡期。高盛近期报告指出,受AI服务器需求爆发影响,继续上调2026年存储价格预期,DRAM涨幅250%-280%,NAND涨幅200%-250%,HBM因技术门槛与产能约束涨幅更高。 面壁智能AI Infra负责人李宇轩在接受界面新闻等媒体采访时指出,内存成为了大模型行业的稀缺资源,其价格在过去一年内翻了约5倍,这导致手机及终端厂商在产品迭代中存在显存焦虑。 对此,原生低比特训练的端侧AI模型,能够有效平衡AI性能与显存消耗吗? 据界面新闻记者了解,针对该问题的传统方法是后训练量化,即先用高精度(如 BF16)完成模型训练,再将其权重压缩至INT8或INT4,但性能损失问题较为突出。 面壁智能的方案是先通过量化感知训练(QAT)让模型进入稳定的收敛态,随后再引入全精度模型进行知识传递。由于低比特模型对数据质量极度敏感,团队通过更精细的数据配比与教师模式,以抵消位宽压缩带来的信息损失。 在训练范式上,李宇轩将这一先量化、再蒸馏的策略比作教导一个天资有限但勤奋的学生,如果过早引入复杂的蒸馏机制,模型反而难以收敛。 此外,李宇轩认为,从技术逻辑上看,1.58-bit被视为模型压缩的“数学甜蜜点”。虽然1-bit(二值)理论上压缩比更高,但无法同时兼顾数学表达的对称性与含零特性,导致精度损失巨大。相比之下,1.58-bit能在保持极致压缩比的同时,最大限度保留权重的表达丰富度。 数据显示,BitCPM系列模型在常识、阅读理解等11项核心任务中,保留了全精度模型90%至97%的能力。“如何用最便宜的芯片跑出最大的智能,这就是端侧模型最核心的问题。”李宇轩强调,“1.58-bit是单位内存占用下,知识密度承载量最优的状态。”…
摘要可能不完整,可查看原文