Ctrl123: 一致的闭环转写下的新视角合成
我们提出了一种名为3DiM的扩散模型,用于3D新视图合成,能够将单个输入视图转换为许多视图上的一致且清晰的完成。 3DiM的核心组成部分是姿态条件的图像到图像扩散模型,它以源视图及其姿态作为输入,并将新姿态的视图作为输出生成。
Oct, 2022
本文提出了一种姿态引导扩散模型来从单张图像中生成一致的、持久的新视角视频,并设计了一个利用极线作为约束的注意力层以促进不同视角之间的关联。实验结果表明,该模型在合成和真实数据集上表现优异,胜过基于Transformer和GAN的现有方法。
Mar, 2023
使用基于扩散的模型,结合现有的二维扩散骨架和三维特征体,进行三维感知的图像生成,同时具备自回归生成3D一致的序列能力。在合成渲染图像和实际物体上展示了最先进的效果。
Apr, 2023
我们提出了一种简单而有效的框架 Efficient-3DiM,用于学习单张图像的新视角合成器,通过减小训练开销,包括精心设计的时间步长采样策略、更优质的三维特征提取器和增强的训练方案,实现了将总训练时间从10天缩短到不到1天,并在相同计算平台上(8个Nvidia A100 GPU实例)加速训练过程。我们进行了全面的实验来证明我们提出方法的高效性和广泛适用性。
Oct, 2023
通过利用生成模型,将零样本新视点合成问题分为两个阶段,即将观察到的区域转化为新视图和对未见过的区域进行幻觉。为了解决3D一致性问题,本文提出了一种具有几何约束的极线引导注意力和多视图注意力的场景表示方法。通过多个数据集的定性和定量评估,证明了所提出机制在效果上优于现有方法。
Oct, 2023
使用大型图像扩散模型,通过引入跨视图关注层和共享自注意机制,提出了Consistent123模型以实现同时合成新视角,并在3D重建和图像到3D生成等下游任务的表现上有显著提升。
Oct, 2023
多视角交叉模块提出了将可变长度的输入数据映射到固定大小的输出数据,进一步提高训练效率的两阶段训练策略。对多个数据集进行定性和定量评估,证明了所提方法相对于以前的方法的有效性。
Dec, 2023
通过利用预训练的大规模视频扩散模型的强大生成能力,我们提出了NVS-Solver,一种新的无需训练的视图合成(NVS)范例,它能够通过单个或多个静态场景视图或动态场景单目视频实现令人惊叹的视觉体验。在我们的理论模型基础上,我们通过迭代地调制与给定场景先验相对应的得分函数来控制视频扩散过程,并根据视图姿势和扩散步数在自适应方式下实现调制。广泛的评估量化和质量化地证明了我们的NVS-Solver相对于现有方法在静态和动态场景下的显著优势。
May, 2024