摘要
英伟达最难被替代的,从来不是一张 GPU,而是 CUDA 背后十几年积累出来的软件生态。 现在,面壁智能想用 AI 来压缩这十几年。 近日,面壁智能发布了全球首个全部由 AI 编写、零人介入、面向大模型训练基础设施的生产级训练框架 ForgeTrain。据面壁方面介绍,ForgeTrain 已经在华为昇腾系列上完成 MiniCPM5-1B 的训练验证,整体速度提升10%。通过此框架, MiniCPM5-1B的预训练耗时为3-5天,MiniCPM4-0.5B 在英伟达 GPU上预训练用了两天。 面壁通过此框架想要验证:当大模型 coding 能力足够强、成本趋近于零时,我们不一定要继续做一个大而全的通用框架,而可以围绕每个模型、每类芯片和每个训练任务,现场“锻造”一套更合适的实现。 AI写代码,人来加Harness 在英伟达的 VibeTensor(作者包括陈天奇、贾扬清等)证明了 AI Agent 能写出复杂系统软件后,ForgeTrain 则围绕具体模型、芯片和训练任务现场生成生产级训练框架,目标更偏工程落地。 面壁团队介绍了ForgeTrain的三阶段构建方法论: 1. 从现有训练框架采集关键数据形成评测标准和Harness;2. 从评测Harness构建二进制一致的训练框架版本(目前已经完成多机多卡版本,比英伟达 Megatron 训练速度快 10%);3. 解除二进制一致的限制,迭代优化到超越 Megatron 的性能。 按照其说法,ForgeTrain 通过搭建一套专用 Harness,让 AI 在闭环环境中不断满足评测指标,并最终写出了一套训练框架。这个过程一旦启动,人类不再参与代码编写和中间修改,而是仅在最后进行验收。ForgeTrain 目前主要覆盖框架和算子层面,算法调参尚未开始从零交给 AI。 在实际效果上,ForgeTrain 已经能训练出与 Megatron 结果一致的模型。面壁称,在 MiniCPM 模型上,ForgeTrain 训练结果在人评和机评上与原有训练框架保持一致,同时在核心速度和成本指标上优于英伟达 Megatron,提升10%。