Mar, 2024

ViewDiff:利用文本到图像模型的3D一致图像生成

TL;DR本文提出一种新的方法,利用预训练的文字转图像模型作为先验知识,从真实世界数据中的单个去噪过程中生成多视角图像,并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层,设计出自回归生成方法,在任意视点上呈现更具一致性的 3D 图像。与现有方法相比,我们的方法生成的结果是一致的,并且具有优秀的视觉质量(FID降低30%,KID降低37%)。