全球首个完全AI编写的训练框架来了，速度反超英伟达：面壁要用 AI 把国产算力软件重写一遍文章

InfoQ 中文2026-05-28BLOGzh作者: 褚杏娟

摘要

 英伟达最难被替代的，从来不是一张 GPU，而是 CUDA 背后十几年积累出来的软件生态。 现在，面壁智能想用 AI 来压缩这十几年。 近日，面壁智能发布了全球首个全部由 AI 编写、零人介入、面向大模型训练基础设施的生产级训练框架 ForgeTrain。据面壁方面介绍，ForgeTrain 已经在华为昇腾系列上完成 MiniCPM5-1B 的训练验证，整体速度提升10%。通过此框架， MiniCPM5-1B的预训练耗时为3-5天，MiniCPM4-0.5B 在英伟达 GPU上预训练用了两天。 面壁通过此框架想要验证：当大模型 coding 能力足够强、成本趋近于零时，我们不一定要继续做一个大而全的通用框架，而可以围绕每个模型、每类芯片和每个训练任务，现场“锻造”一套更合适的实现。 AI写代码，人来加Harness 在英伟达的 VibeTensor（作者包括陈天奇、贾扬清等）证明了 AI Agent 能写出复杂系统软件后，ForgeTrain 则围绕具体模型、芯片和训练任务现场生成生产级训练框架，目标更偏工程落地。 面壁团队介绍了ForgeTrain的三阶段构建方法论： 1. 从现有训练框架采集关键数据形成评测标准和Harness；2. 从评测Harness构建二进制一致的训练框架版本（目前已经完成多机多卡版本，比英伟达 Megatron 训练速度快 10%）；3. 解除二进制一致的限制，迭代优化到超越 Megatron 的性能。 按照其说法，ForgeTrain 通过搭建一套专用 Harness，让 AI 在闭环环境中不断满足评测指标，并最终写出了一套训练框架。这个过程一旦启动，人类不再参与代码编写和中间修改，而是仅在最后进行验收。ForgeTrain 目前主要覆盖框架和算子层面，算法调参尚未开始从零交给 AI。 在实际效果上，ForgeTrain 已经能训练出与 Megatron 结果一致的模型。面壁称，在 MiniCPM 模型上，ForgeTrain 训练结果在人评和机评上与原有训练框架保持一致，同时在核心速度和成本指标上优于英伟达 Megatron，提升10%。

全球首个完全AI编写的训练框架来了，速度反超英伟达：面壁要用 AI 把国产算力软件重写一遍文章

摘要

相关事件

相关公司查看全部 (2)

相关人物

相关产品查看全部 (7)

相关技术查看全部 (2)

全球首个完全AI编写的训练框架来了，速度反超英伟达：面壁要用 AI 把国产算力软件重写一遍 文章

摘要

相关事件

相关公司查看全部 (2)

相关人物

相关产品查看全部 (7)

相关技术查看全部 (2)

全球首个完全AI编写的训练框架来了，速度反超英伟达：面壁要用 AI 把国产算力软件重写一遍文章