...
- 绝大多数Diffusion模型同时多个视角;
- 单一Diffusion模型难以接受多模态控制条件。
如上图左所示,当使用Diffusion模型从相隔较远的视角合成图像时,参考图像和目标图像之间的重叠度会显著降低,从而削弱了参考引导的有效性。在极端情况下,例如从前视角生成后视角图像,由于重叠纹理极少,视觉参考信息几乎可以忽略不计。这种有限的参考信息可能会导致模型生成的多视角图像不够一致。
...
受此启发,我们开发了 MVAR 框架,通过解决 AR 在多视角图像生成中的多模态条件控制难、高质量数据有限、多帧累计误差问题,拉近了现有基于自回归框架的与先进的基于扩散模型的多视角图像生成方法的性能差距。MVAR的主要架构图如下所示:
针对多模态条件控制难问题,我们精心为不同模态的条件信息选择了逐像素加法与in-context两种注入方式:
...
实验结果可见上表。表中,红色表示最优、蓝色表示次优。MVAR 的表现上有着最高的PSNR、次优的SSIM,但在LPIPS这一感知指标上仍有些逊色。更高的PSNR意味着生成的视角与对应的GT能更好的进行颜色、形状、物体位置上的对齐;略低的 LPIPS 意味着 MVAR 在实际图像质量上可能相对于Diffusion略逊一筹。
- MVAR展示出更强的指令遵从与多视角一致性。以文本作为条件输入的多视角生成任务为例,我们的模型能比基于扩散模型的方法MVDream有着更准确的指令遵循与多视角一致性。
- MVAR能够实现多模态通用编辑。经过渐进式训练,仅能接受文本作为条件输入的模型可以完成文本与形状(几何)的多模态输入,同时保留仅由文本作为条件输入、输出多视角图像的能力。
该论文第一作者为MILab博士生胡珈魁和清华大学硕士生杨羽霄,卢闫晔助理教授与前百度技术部刘家伦为本文的通讯作者。其他合作者还包括百度技术部吴进波、赵晨。该研究得到了国家自然科学基金、北京大学“临床+X”青年专项、北京大学肿瘤医院学科交叉专项等项目的经费支持。
...