MILab缓解场景视频生成中的三维重建累积误差问题（CVPR-26）

近期，MILab 在场景一致性视频生成方向取得新进展，提出了一种新的场景视频生成框架 Geometry-as-Context（GaC），相关研究论文 Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context 被CVPR2026接收。该工作聚焦于单张图像驱动的场景视频生成任务，即根据输入参考图像和指定相机轨迹，生成具有高三维一致性和高视觉质量的场景探索视频。

近年来，场景视频生成受到广泛关注。与普通视频生成不同，场景视频生成不仅需要保证视频内容的自然性和连续性，还要求在长时间生成过程中保持严格的三维一致性，即当相机视角发生变化时，场景中的物体结构、纹理细节以及空间关系能够保持稳定。这一能力对于虚拟现实、数字孪生、游戏内容生成以及具身智能等应用具有重要意义。

现有方法主要可以分为两类。一类方法直接基于视频生成模型进行逐帧生成，通过记忆机制或自回归建模增强长时序一致性，但在复杂场景和大范围相机运动下仍然容易出现结构漂移和细节崩坏。另一类方法则显式引入三维表示，例如深度图、点云或三维高斯表示，通过逐步重建场景并渲染新视角来实现视频生成。这类方法通常先预测当前视角的几何信息，再构建三维表示，随后依据目标相机位姿渲染新视角图像，并对渲染结果中的空洞区域进行修复。

尽管基于三维重建的方法在短视角变化范围内能够获得较好的三维一致性，但其存在一个关键问题，即累积误差。在逐步重建和渲染过程中，一旦某一步的深度估计、几何重建或图像修复出现误差，该误差便会被写入三维表示，并进一步影响后续视角的渲染和生成。随着生成过程不断迭代，误差会不断积累和放大，最终导致场景结构逐渐失真、纹理漂移，甚至相机轨迹失控。这一问题的根本原因在于，传统方法中的三维重建和渲染模块通常独立于图像生成模型，且包含不可微操作，使得整体流程难以进行端到端优化。

针对这一问题，本文提出 Geometry-as-Context 框架，其核心思想是将原本独立的几何估计、三维重建、视角渲染和图像修复过程统一纳入单一的视频生成模型中。不同于传统方法显式执行三维重建和渲染，本文将几何信息视为一种辅助上下文输入，使模型在生成过程中同时学习场景几何结构与视角变化规律，从而将原本分离的重建流程隐式融入生成模型内部。

具体地，该方法将图像帧、几何信息以及中间渲染结果按照交替方式组织为统一输入序列，并采用自回归生成模型进行联合建模。通过这种设计，模型能够同时学习几何预测、新视角合成以及图像修复之间的关系，使整个场景视频生成过程实现统一优化。由于省去了传统流程中显式的重建和渲染步骤，并引入了端到端学习方式，该方法有效避免了误差在多个独立模块之间反复传播和放大，误差也可以在优化过程中被弥补。

大量实验结果验证了该方法的有效性。在多个场景视频生成基准数据集上，Geometry-as-Context 在图像质量、三维一致性以及相机轨迹准确性等多个指标上均优于现有方法。相比此前方法，本文在峰值信噪比、结构相似性和感知质量指标上均取得更优结果，同时生成视频在长时序下表现出更稳定的场景结构和更一致的纹理细节。

作者进一步设计了更加困难的往返相机轨迹测试，即相机先远离场景再返回原始位置。该设置对模型的长期记忆能力和三维一致性提出更高要求。实验结果显示，现有方法往往无法在返回过程中准确恢复先前离开视野的物体，而本文方法能够保持较高的一致性，即使物体在中间帧暂时消失，也能够在后续帧中准确恢复其位置与外观。

该论文第一作者为 MILab 博士生胡珈魁，通讯作者包括卢闫晔助理教授与电信人工智能公司刘家伦。其他合作者包括澳门科技大学杨俪莹、MILab实验室成员张心亮、李恺文、曾爽、李远威等。该研究得到了国家重点研发计划、国家自然科学基金以及北京大学肿瘤医院学科基金的支持。

论文链接：Arxiv

页面树结构

0 评论