Ctrl123: 一致的闭环转写下的新视角合成

Mar, 2024

Ctrl123: 一致的闭环转写下的新视角合成

Ctrl123: Consistent Novel View Synthesis via Closed-Loop Transcription

Hongxiang Zhao, Xili Dai, Jianan Wang, Shengbang Tong, Jingyuan Zhang...

TL;DRCtrl123是一种基于封闭循环转录的新颖视图合成扩散方法，它在姿态敏感特征空间中强制生成视角和真实数据的一致性，在NVS和3D重建任务中取得了显著的改进。

Abstract

large image diffusion models have demonstrated zero-shot capability in novel view synthesis (NVS). However, existing diffusion-based nvs methods<

发现论文，激发创造

扩散模型的新视角综合

我们提出了一种名为3DiM的扩散模型，用于3D新视图合成，能够将单个输入视图转换为许多视图上的一致且清晰的完成。 3DiM的核心组成部分是姿态条件的图像到图像扩散模型，它以源视图及其姿态作为输入，并将新姿态的视图作为输出生成。

Oct, 2022

姿态引导扩散模型的一致视图合成

本文提出了一种姿态引导扩散模型来从单张图像中生成一致的、持久的新视角视频，并设计了一个利用极线作为约束的注意力层以促进不同视角之间的关联。实验结果表明，该模型在合成和真实数据集上表现优异，胜过基于Transformer和GAN的现有方法。

Mar, 2023

使用3D感知扩散模型实现生成新视图综合

使用基于扩散的模型，结合现有的二维扩散骨架和三维特征体，进行三维感知的图像生成，同时具备自回归生成3D一致的序列能力。在合成渲染图像和实际物体上展示了最先进的效果。

Apr, 2023

具有扩散模型的长期光度一致的新视角综合

本文提出了一种基于条件扩散模型的新型生成模型，用于从单个输入图像生成相对的摄像机视图的连续序列的照片般逼真、视角一致、空间几何连续的图像。

Apr, 2023

Efficient-3DiM：一天学会通用的单图像新视角综合器

我们提出了一种简单而有效的框架 Efficient-3DiM，用于学习单张图像的新视角合成器，通过减小训练开销，包括精心设计的时间步长采样策略、更优质的三维特征提取器和增强的训练方案，实现了将总训练时间从10天缩短到不到1天，并在相同计算平台上（8个Nvidia A100 GPU实例）加速训练过程。我们进行了全面的实验来证明我们提出方法的高效性和广泛适用性。

Oct, 2023

Consistent-1-to-3: 基于几何感知扩散模型的一致的图像到3D视图合成

通过利用生成模型，将零样本新视点合成问题分为两个阶段，即将观察到的区域转化为新视图和对未见过的区域进行幻觉。为了解决3D一致性问题，本文提出了一种具有几何约束的极线引导注意力和多视图注意力的场景表示方法。通过多个数据集的定性和定量评估，证明了所提出机制在效果上优于现有方法。

Oct, 2023

Consistent123: 提升一张图像到三维物体合成的一致性

使用大型图像扩散模型，通过引入跨视图关注层和共享自注意机制，提出了Consistent123模型以实现同时合成新视角，并在3D重建和图像到3D生成等下游任务的表现上有显著提升。

Oct, 2023

ViVid-1-to-3：带视频扩散模型的新视角合成

利用预训练的视频扩散模型，我们演示了一种非常简单的方法，通过合成互补视角的扫描视频来生成新视角，从而实现高度一致的新视图合成。

Dec, 2023

VaLID：用于新视角合成的可变长度输入扩散

多视角交叉模块提出了将可变长度的输入数据映射到固定大小的输出数据，进一步提高训练效率的两阶段训练策略。对多个数据集进行定性和定量评估，证明了所提方法相对于以前的方法的有效性。

Dec, 2023

NVS-Solver: 视频扩散模型作为零样本新视角合成器

通过利用预训练的大规模视频扩散模型的强大生成能力，我们提出了NVS-Solver，一种新的无需训练的视图合成（NVS）范例，它能够通过单个或多个静态场景视图或动态场景单目视频实现令人惊叹的视觉体验。在我们的理论模型基础上，我们通过迭代地调制与给定场景先验相对应的得分函数来控制视频扩散过程，并根据视图姿势和扩散步数在自适应方式下实现调制。广泛的评估量化和质量化地证明了我们的NVS-Solver相对于现有方法在静态和动态场景下的显著优势。

May, 2024