...
实验结果可见上表。表中,红色表示最优、蓝色表示次优。MVAR 的表现上有着最高的PSNR、次优的SSIM,但在LPIPS这一感知指标上仍有些逊色。更高的PSNR意味着生成的视角与对应的GT能更好的进行颜色、形状、物体位置上的对齐;略低的 LPIPS 意味着 MVAR 在实际图像质量上可能相对于Diffusion略逊一筹。
- MVAR展示出更强的指令遵从与多视角一致性。以文本作为条件输入的多视角生成任务为例,我们的模型能比基于扩散模型的方法MVDream有着更准确的指令遵循与多视角一致性。
- MVAR能够实现多模态通用编辑。经过渐进式训练,仅能接受文本作为条件输入的模型可以完成文本与形状(几何)的多模态输入,同时保留仅由文本作为条件输入、输出多视角图像的能力。
该论文第一作者为MILab博士生胡珈魁和清华大学硕士生杨羽霄,卢闫晔助理教授与前百度技术部刘家伦为本文的通讯作者。其他合作者还包括百度技术部吴进波、赵晨。该研究得到了国家自然科学基金、北京大学“临床+X”青年专项、北京大学肿瘤医院学科交叉专项等项目的经费支持。
...