AMD新论文颠覆认知：FP4训练不稳定，原因不是随机性不足文章

36kr 资讯2026-05-27NEWSzh作者: 机器之心

摘要

众所周知，大模型训练成本极高。但大家又知道，降低训练精度能够显著降低训练成本。DeepSeek-V3 用 FP8 训练把成本打到了 560 万美元，已经让全行业侧目。在 FP8 成功后，行业仍然在不断探索低精度的边界：从 FP8 降到 FP4，训练成本还能再降多少？理论上，FP4 的计算吞吐可以是 FP8 的两倍。NVIDIA Blackwell 和 AMD MI350 系列都已经在硬件层面原生支持了 FP4 运算，前者在 B200 上标称 FP4 算力可达 4500 TOPS（稀疏）。硬件已经准备好了，但软件和算法那一侧，一直卡在一个问题上：用 FP4 从头训练大模型，训练过程非常不稳定。过去两年里，LLM-FP4、NVFP4 预训练等工作陆续尝试了这条路，但鲜有方案能在 4 比特精度下干净利落地跑通全流程预训练，同时保持接近 FP8 的收敛质量。更棘手的是，崩溃的原因一直不清楚，分析认为，FP4 训练不稳定的原因很可能来自随机性不足。但就在最近，AMD 联合宾夕法尼亚州立大学发布了一篇论文，颠覆了传统的认知，为原生 FP4 训练给出了一个全新的清晰诊断。论文标题：Pretraining large language models with MXFP4 on Native FP4 Hardware 论文链接：https://arxiv.org/abs/2605.09825 这篇论文在 AMD Instinct MI355X GPU 上，用 MXFP4 格式完成了 Llama 3.1-8B 的全流程预训练，端到端训练速度比 FP8 基线快 9-10%，token 开销仅多 8-9%。这是目前第一个在原生 FP4 硬件（非软件模拟）上完成大模型预训练的完整实验。更重要的是，论文揭示了核心问题：FP4 训练的不稳定性的来源不是随机性不足，是结构性微缩放误差沿敏感梯度路径累积放大。 MXFP4 是什么在拆解论文之前，有必要先理解 MXFP4 这个数据格式。传统的整数量化通常对整个张量使用一个缩放因子。

AMD新论文颠覆认知：FP4训练不稳定，原因不是随机性不足文章

摘要

相关事件

相关公司查看全部 (1)

相关人物

相关产品查看全部 (6)

相关技术查看全部 (15)

AMD新论文颠覆认知：FP4训练不稳定，原因不是随机性不足 文章

摘要

相关事件

相关公司查看全部 (1)

相关人物

相关产品查看全部 (6)

相关技术查看全部 (15)

AMD新论文颠覆认知：FP4训练不稳定，原因不是随机性不足文章