近期,MILab在多图像生成方面取得进展,提出了一种基于自回归的多视角图像生成方法 ,相关研究论文“Auto-Regressively Generating Multi-View Consistent Images”已被ICCV 2025会议接收。这篇文章介绍并开发了一种自回归生成多视图图像的方法 MVAR 。其目的是确保在生成当前视图的过程中,模型能够从所有先前的视图中提取有效的引导信息,从而增强多视图的一致性。 MVAR 拉近了纯自回归方法与最先进的基于扩散的多视图图像生成方法的生成图像质量,并成为能够处理同时多模态条件的多视图图像生成模型。

        根据人工指令生成多视图图像对于 3D 内容创作至关重要。主要挑战在于如何在多视图之间保持一致性,以及如何在不同条件下有效地合成形状和纹理。此前的工作主要使用Diffusion模型中自带的多视角一致性先验,促进多视角一致图像生成。但是Diffusion模型存在一些先天劣势:

  • 绝大多数Diffusion模型同时多个视角;
  • 单一Diffusion模型难以接受多模态控制条件。

        如上图左所示,当使用Diffusion模型从相隔较远的视角合成图像时,参考图像和目标图像之间的重叠度会显著降低,从而削弱了参考引导的有效性。在极端情况下,例如从前视角生成后视角图像,由于重叠纹理极少,视觉参考信息几乎可以忽略不计。这种有限的参考信息可能会导致模型生成的多视角图像不够一致。

        为了解决这一局限性,我们提出采用自回归 (AutoRegressive, AR) 生成方法进行多视图图像生成。如上图右所示,在基于 AR 的生成中,模型利用前 n-1 个视图的信息作为生成第 n 个视图的条件,从而允许模型利用先前生成的视图的信息。在从前视图参考生成后视图的场景中,AR 生成模型会从先前的视图中提取足够且相关的参考。

        受此启发,我们开发了 MVAR 框架,通过解决 AR 在多视角图像生成中的多模态条件控制难高质量数据有限、多帧累计误差问题,拉近了现有基于自回归框架的与先进的基于扩散模型的多视角图像生成方法的性能差距。MVAR的主要架构图如下所示:

       针对多模态条件控制难问题,我们精心为不同模态的条件信息选择了逐像素加法in-context两种注入方式:

  1. 与输出能大致逐像素匹配的(如:普朗克编码后的相机位姿、参考图像、深度图),使用逐像素加法进行条件注入;
  2. 完全不能逐像素匹配的(如:文本、几何),使用 in-context 条件注入。   

       针对高质量数据有限、多帧累计误差问题我们主要提出了适配自回归式生成的Shuffle View (ShufV) 数据增强策略与渐进式学习策略。前者的动机在于通过使用不同的相机路径进行训练从而增强训练数据的数量,后者可以将模型从仅接受文本条件的 text to multi-view image (t2mv) 模型泛化到 any to multi-view image (x2mv) 模型。

       实验在通用3D物体多视角数据集GSO上进行验证,结果表明:

  • MVAR拉近了基于AR的多视角生成模型与现有的Diffusion模型的差距。

方法

PSNR

SSIM

LPIPS

Realfusion

15.26

0.722

0.283

Zero123

18.93

0.779

0.166

SyncDreamer

19.89

0.801

0.129

Wonder3D

22.82

0.892

0.062

Era3D

22.73

0.911

0.071

MV-AR (Ours)

22.99

0.907

0.084

实验结果可见上表。表中,红色表示最优、蓝色表示次优。MVAR 的表现上有着最高的PSNR、次优的SSIM,但在LPIPS这一感知指标上仍有些逊色。更高的PSNR意味着生成的视角与对应的GT能更好的进行颜色、形状、物体位置上的对齐;略低的 LPIPS 意味着 MVAR 在实际图像质量上可能相对于Diffusion略逊一筹。


  • MVAR展示出更强的指令遵从与多视角一致性。以文本作为条件输入的多视角生成任务为例,我们的模型能比基于扩散模型的方法MVDream有着更准确的指令遵循与多视角一致性。

  • MVAR能够实现多模态通用编辑。经过渐进式训练,仅能接受文本作为条件输入的模型可以完成文本与形状(几何)的多模态输入,同时保留仅由文本作为条件输入、输出多视角图像的能力。

       该论文第一作者为MILab博士生胡珈魁和清华大学硕士生杨羽霄,卢闫晔助理教授与前百度技术部刘家伦为本文的通讯作者。其他合作者还包括百度技术部吴进波、赵晨。该研究得到了国家自然科学基金、北京大学“临床+X”青年专项、北京大学肿瘤医院学科交叉专项等项目的经费支持。


  • 无标签
写评论...