5秒完成3D场景编辑，北大&港中文&上海AI Lab搞出VGGT-Edit，120倍加速太炸了文章

36kr 资讯2026-05-27NEWSzh作者: 量子位

摘要

3D世界“会看”了，但还不会“改”。从NeRF到83D Gaussian Splatting，再到VGGT、π³这类前馈式3D重建模型，整个行业的进展速度明显加快——只需几张图片，就能在几秒内重建完整3D场景。但问题也恰恰出在这里。这些模型虽然已经能理解三维世界，却还不会修改三维世界。你可以让它重建一个房间，却很难真正告诉它：把椅子移到窗边，删除中间那张椅子，把灰色皮沙发改成白色长毛沙发。更麻烦的是，一旦涉及复杂编辑，现有方法往往迌速崩採——某些角度里椅子消失了，换个视角椅子又重新出现；明明没改的背景，却跟着一起变形。为应对这一挑战，来自北京大学、香港中文大学、上海AI Lab、NTU等机构的研究团队，提出了一套原生3D编辑框架：VGGT-Edit。核心思路只有一句话—— 不再绕回2D，而是直接在3D空间里完成编辑。在DeltaScene测试集上，VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度均超过现有方法，单次编辑仅需约5秒，最高实现120倍加速。问题其实一直出在在2D 目前大多数编3D的方法，本质上仍然是“2D思维”——先把场景拆成多弤2D图片，逐张编辑，再重新拼回3D。但由于每个视角都是独立处理的，所以很容易出现：一个视角里椅子已经删掉了；换个角度椅子又重新出现；背景区域跟着一起漂移；物体边缘出现重影和闪烁。 △ 很多结果看起来更像“在不同角度硬P出来的图”，而不是真正稳定的3D空间。对于机器人、AR/VR、空间智能这些方向来说，这几乎是致命问题——这些场景真正需要的，不是“某一个角度看起来对”，而是整个3D世界始终稳定一致。原生3D编辑，开始从概念走向可用 VGGT-Edit的核心思路非常直接：既然问题来自2D，那就不要再绕回2D。整个框架建立在VGGT-Like前馈式重建模型之上，继承了其快速、高效的3D表示能力。但有意思的是，团队并没有选择重新生成整个场景，而是提出了一种非常巧妙的机制：残差场预测（Residual Field Prediction）。简单理解就是：模型先保留原始场景稳定的3D结构，然后只学习“哪里需要变化”，例如：椅子往右移动；

5秒完成3D场景编辑，北大&港中文&上海AI Lab搞出VGGT-Edit，120倍加速太炸了文章

摘要

相关事件

相关公司查看全部 (1)

相关人物

相关产品查看全部 (1)

相关技术查看全部 (7)

5秒完成3D场景编辑，北大&港中文&上海AI Lab搞出VGGT-Edit，120倍加速太炸了 文章

摘要

相关事件

相关公司查看全部 (1)

相关人物

相关产品查看全部 (1)

相关技术查看全部 (7)

5秒完成3D场景编辑，北大&港中文&上海AI Lab搞出VGGT-Edit，120倍加速太炸了文章