5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了 文章

36kr 资讯2026-05-27NEWSzh作者: 量子位

摘要

3D世界“会看”了,但还不会“改”。 从NeRF到83D Gaussian Splatting,再到VGGT、π³这类前馈式3D重建模型,整个行业的进展速度明显加快——只需几张图片,就能在几秒内重建完整3D场景。 但问题也恰恰出在这里。这些模型虽然已经能理解三维世界,却还不会修改三维世界。你可以让它重建一个房间,却很难真正告诉它: 把椅子移到窗边,删除中间那张椅子,把灰色皮沙发改成白色长毛沙发。 更麻烦的是,一旦涉及复杂编辑,现有方法往往迌速崩採——某些角度里椅子消失了,换个视角椅子又重新出现;明明没改的背景,却跟着一起变形。 为应对这一挑战,来自北京大学、香港中文大学、上海AI Lab、NTU等机构的研究团队,提出了一套原生3D编辑框架:VGGT-Edit。 核心思路只有一句话—— 不再绕回2D,而是直接在3D空间里完成编辑。 在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度均超过现有方法,单次编辑仅需约5秒,最高实现120倍加速。 问题其实一直出在在2D 目前大多数编3D的方法,本质上仍然是“2D思维”——先把场景拆成多弤2D图片,逐张编辑,再重新拼回3D。 但由于每个视角都是独立处理的,所以很容易出现: 一个视角里椅子已经删掉了; 换个角度椅子又重新出现; 背景区域跟着一起漂移; 物体边缘出现重影和闪烁。 △ 很多结果看起来更像“在不同角度硬P出来的图”,而不是真正稳定的3D空间。 对于机器人、AR/VR、空间智能这些方向来说,这几乎是致命问题——这些场景真正需要的,不是“某一个角度看起来对”,而是整个3D世界始终稳定一致。 原生3D编辑,开始从概念走向可用 VGGT-Edit的核心思路非常直接:既然问题来自2D,那就不要再绕回2D。 整个框架建立在VGGT-Like前馈式重建模型之上,继承了其快速、高效的3D表示能力。但有意思的是,团队并没有选择重新生成整个场景,而是提出了一种非常巧妙的机制: 残差场预测(Residual Field Prediction)。 简单理解就是:模型先保留原始场景稳定的3D结构,然后只学习“哪里需要变化”,例如: 椅子往右移动;

相关事件

暂无数据

相关人物

暂无数据