摘要
AlphaFold 王座告急! Nature 刊文:扎克伯格旗下 Biohub 放了一记王炸,一口气发布 11 亿个蛋白质结构预测,比 AlphaFold 数据库多出 8 亿条。 背后的 AI 模型 ESMFold2 号称性能全面超越 AlphaFold3。 更关键的是,完全开源,不限商用。 https://www.nature.com/articles/d41586-026-01686-3 谷歌 DeepMind 苦心经营多年的蛋白质 AI 霸主地位,正在被一个开源搅局者动摇。 蛋白质 AI 赛道的格局,可能要重写了。 11 亿个蛋白质结构,一把端上桌了 5 月 27 日,扎克伯格夫妇创建的生物医学机构 Biohub,正式上线了名为 ESM Atlas 的蛋白质结构数据库。 11 亿个预测蛋白质结构,外加 68 亿条蛋白质序列信息。 AlphaFold 的数据库积累了超过 2 亿个结构预测,ESM Atlas 一来就多出 8 亿条。 生成这些预测的 AI 模型叫 ESMFold2,由 Biohub 科学负责人 Alex Rives 带队开发。 Rives 说: 这个图谱展示了蛋白质生物学的全貌,尤其是那些最未知的部分。 蛋白质结构预测为什么重要? 蛋白质是生命运转的核心零件,知道它的形状就能理解它的功能,进而设计新药、攻克疾病。 AlphaFold 靠这个拿了诺贝尔化学奖,是 AI 改变科学的标志性案例。 现在一个新模型拿着大 5 倍的数据集站了出来。 作为 AI 模型,ESMFold2 强在哪 ESMFold2 走了一条和 AlphaFold 不同的技术路线。 它基于 2024 年发布的「蛋白质语言模型」构建,核心思路借鉴了 NLP 领域的做法,把蛋白质序列当作「语言」来理解,在数十亿条蛋白质数据上训练,让模型学会从序列直接预测三维结构。 AlphaFold 的 AI 同行们看到这里应该会觉得熟悉,这和大语言模型学习人类语言的逻辑是一样的。 训练数据的覆盖范围是关键变量。 ESMFold2 纳入了大量来自土壤、海洋等环境的微生物蛋白质数据,这部分在 AlphaFold 的数据库里是空白的。