何庭波、梁文锋,给出了同一种答案 文章

36kr 资讯2026-05-27NEWSzh作者: 盒饭财经

摘要

历史从不因某个定律被“提出”而改变,历史只因某个定律被“验证”而改变。 又一个极限微操。 如同DeepSeek用算法榨干GPU一样,华为也打算在半导体领域做同样一件事。 5月25日,由电气电子工程师学会(IEEE)举办的国际电路系统研讨会ISCAS 2026在上海举行。会上,华为公司董事、半导体业务部总裁何庭波在题为《半导体新路径探索与实践》的主旨演讲中,正式发表了“韬(τ)定律”。 何庭波,来源:人民日报 同日09:56,一篇名为《A Time Scaling Theory for Multi-Layer Electronic Systems》上线中国科学院科技论文预发布平台(ChinaXiv)。论文共16页,编号为 ChinaXiv:202605.00224v1,作者Tingbo He(何庭波),作者单位为华为。 链接为,可自行查阅: https://chinaxiv.org/abs/202605.00224 来源: ChinaXiv 平台截图 对于摩尔定律撞物理墙这一现状,何庭波直接写到:“该行业的核心问题发生了变化。它不再是‘晶体管还能再缩小多少?’而是‘应该缩小到什么程度,以及以什么目标?’” 换个什么目标?从缩小空间,转向压缩时间。 熟悉吗? DeepSeek在开发V3模型时,同样面对算力受限的困境。其技术报告披露,V3完整训练只需278.8万H800 GPU小时,按每GPU小时2美元计算,总训练成本仅为557万美元。同期业内估算GPT-4o的训练成本约为1亿美元。也就是说,DeepSeek用了不到二十分之一的成本。 怎么做到的?不是堆更多GPU,而是从两个方向同时动手:在模型架构层,用MoE架构让每次计算只激活必要的参数;在底层硬件控制层,绕过CUDA的高级API,直接编写PTX汇编语言,对GPU的寄存器分配和线程调度进行精细化控制。 华为也好,DeepSeek也好,两家不同领域的公司,给出了相似的答案:回到商业现实,不再堆料,向架构要效率。 1 从“空间”向“时间”,从“供给”视角到“需求”视角 进入“后摩尔定律时代”,早已是业内共识。 近半个世纪的半导体产业,就是一部关于“如何把空间压榨到极致”的微雕史。