TOSS：基于单张图像的高质量文本引导的新视角合成

Oct, 2023

TOSS：基于单张图像的高质量文本引导的新视角合成

TOSS:High-quality Text-guided Novel View Synthesis from a Single Image

Yukai Shi, Jianan Wang, He Cao, Boshi Tang, Xianbiao Qi...

TL;DR本文介绍了 TOSS，它利用文本信息将单一 RGB 图像转化为创新视角合成（NVS）的任务。TOSS 通过使用文本作为高级语义信息来约束 NVS 的解空间，利用特定于图像和相机姿态的模块进行训练，并引入了针对姿态正确性和精细细节保留的专门训练。实验结果表明，我们提出的 TOSS 在可信度、可控性和多视图一致性方面优于 Zero-1-to-3，并通过全面的剖析验证了引入的语义指导和架构设计的有效性和潜力。

Abstract

In this paper, we present toss, which introduces text to the task of novel view synthesis (nvs) from just a single RGB image. While Zero-1-to-3 has demonstrated impressive zero-shot open-set →

toss novel view synthesis text-to-image nvs semantic guidance

发现论文，激发创造

Consistent-1-to-3: 基于几何感知扩散模型的一致的图像到 3D 视图合成

通过利用生成模型，将零样本新视点合成问题分为两个阶段，即将观察到的区域转化为新视图和对未见过的区域进行幻觉。为了解决 3D 一致性问题，本文提出了一种具有几何约束的极线引导注意力和多视图注意力的场景表示方法。通过多个数据集的定性和定量评估，证明了所提出机制在效果上优于现有方法。

Oct, 2023

ZeroNVS: 从单张真实图像实现零射击 360 度视角综合

我们引入了一个三维感知扩散模型 ZeroNVS，用于野外场景下的单图像新视图合成。通过训练一种生成式先验模型来处理多物体场景和复杂背景带来的挑战，提出了新的技术。我们还提出了一种新颖的相机条件参数化和归一化方案，以解决深度尺度的二义性问题。此外，我们注意到 Score Distillation Sampling（SDS）在蒸馏 360 度场景时倾向于截断复杂背景的分布，并提出了 “SDS anchoring” 以改善合成新视图的多样性。我们的模型在 DTU 数据集的零样本设置中取得了新的 LPIPS 优势，甚至优于专门在 DTU 上训练的方法。我们进一步将具有挑战性的 Mip-NeRF 360 数据集调整为单图像新视图合成的新基准，并在该设置中展现出强大的性能。我们的代码和数据位于此 http URL。

Oct, 2023

NVS-Adapter: 单图像即插即用的新视角合成

提出了一种名为 NVS-Adapter 的有效方法，它是用于 T2I 模型的即插即用模块，能够生成具有几何一致性的多视图，并在不完全微调 T2I 模型的情况下在基准测试上取得高性能。

Dec, 2023

Ctrl123: 一致的闭环转写下的新视角合成

Ctrl123 是一种基于封闭循环转录的新颖视图合成扩散方法，它在姿态敏感特征空间中强制生成视角和真实数据的一致性，在 NVS 和 3D 重建任务中取得了显著的改进。

Mar, 2024

室内场景的单个 RGBD 图像的新视角合成

本文提出了一种从单个 RGBD 输入合成新视角图像的方法，通过利用 RGBD 图像中嵌入的深度信息，将 NVS 任务转换成图像转换问题，并使用生成对抗网络实现类似于从新视角拍摄的照片的结果，而不受传统多图像技术的限制。

Nov, 2023

Free3D: 无需 3D 表示的一致新视角合成

这篇研究提出了一种名为 Free3D 的简单方法，用于通过单张图像进行开放集合的新视角合成。使用编码目标相机姿势的新的像素级射线调节归一化（RCN）层，改进了目标相机姿势的建模。同时通过轻量级多视图注意力层和多视图噪声共享提高了多视图一致性。我们在 Objaverse 数据集上训练了 Free3D，并在几个新数据集中展示了其卓越的泛化性能。希望我们的简单而有效的方法能够作为一个坚实的基准，并有助于未来关于新视角合成更精确的研究。

Dec, 2023

Zero123-6D：RGB 类别级别 6D 姿态估计的零样本新视角合成

通过将 Diffusion 模型与特征提取技术相结合，本文提出了 Zero123-6D 方法，并在 CO3D 数据集上进行了实验，展示了在类别级别上通过扩展稀疏的纯 RGB 参考视图来提高零侧位姿估计性能、减少数据需求以及消除对深度信息的需求。

Mar, 2024

视角文本倒置：通过预训练 2D 扩散模型释放新颖视图综合

通过冻结的扩散模型，我们的方法 ViewNeTI 可以控制生成图像中物体的三维观点，以解决新颖视角合成的问题，并且拥有良好的语义细节和照片般逼真的单视图新颖视角合成预测。

Sep, 2023

NVS-Solver: 视频扩散模型作为零样本新视角合成器

通过利用预训练的大规模视频扩散模型的强大生成能力，我们提出了 NVS-Solver，一种新的无需训练的视图合成（NVS）范例，它能够通过单个或多个静态场景视图或动态场景单目视频实现令人惊叹的视觉体验。在我们的理论模型基础上，我们通过迭代地调制与给定场景先验相对应的得分函数来控制视频扩散过程，并根据视图姿势和扩散步数在自适应方式下实现调制。广泛的评估量化和质量化地证明了我们的 NVS-Solver 相对于现有方法在静态和动态场景下的显著优势。

May, 2024

PolyOculus：多视角基于图像的新视图综合

基于已知视图的创新视图综合的问题，我们提出了一种基于集合的生成模型，可以同时生成多个自洽的新视图，不仅限于生成单个图像，而且可以根据零个、一个或多个视图进行条件生成，可在大量视图生成中保持图像质量，并在像循环和双目轨迹等任务上显著优于其他方法。

Feb, 2024