NViST：使用 Transformers 从单张图像中合成真实环境新视角

Dec, 2023

NViST：使用 Transformers 从单张图像中合成真实环境新视角

NViST: In the Wild New View Synthesis from a Single Image with Transformers

Wonbong Jang, Lourdes Agapito

TL;DR我们提出了一种基于 transformer 的模型 NViST，用于从单张图像中合成新视角，该模型在具有复杂背景的大规模野外图像数据集上进行训练。

Abstract

We propose nvist, a transformer-based model for novel-view synthesis from a single image, trained on a large-scale dataset of

nvist novel-view synthesis transformer-based model radiance field in-the-wild images

发现论文，激发创造

单输入图像视角合成的视觉 Transformer 网络

本研究提出利用全局和局部特征构建表达式三维模型的方法，通过训练 MLP 网络，实现从单个未定位图像中合成新视角，并在多个物体类别上进行泛化，获得了比现有方法更出色的性能和更丰富的细节渲染。

Jul, 2022

ViewFormer：使用 Transformer 从少量图像实现无 NeRF 神经渲染

本研究提出了一种基于 2D 的神经网络方法，结合编码键和转换模型，用于实现新颖视角合成，在不需要显式 3D 理解的情况下，相比于 NeRF 方法更高效。

Mar, 2022

室内场景的单个 RGBD 图像的新视角合成

本文提出了一种从单个 RGBD 输入合成新视角图像的方法，通过利用 RGBD 图像中嵌入的深度信息，将 NVS 任务转换成图像转换问题，并使用生成对抗网络实现类似于从新视角拍摄的照片的结果，而不受传统多图像技术的限制。

Nov, 2023

基于交叉注意力引导的多视角无监督图像生成

利用预训练的无监督自监督视觉变换器（DINOv2）对单类别数据集进行聚类，从而识别物体姿势，并带有训练在姿势标签上的姿势条件扩散模型，同时在推断时利用跨帧注意力以确保视角的一致性，进一步通过强化注意力指导提高，从而在实际图像上实现了优越于先前工作的新视角合成的模型 MIRAGE，同时在以预训练的稳定扩散生成的合成图像上进行的实验显示 MIRAGE 对于多样的纹理和几何具有鲁棒性。

Dec, 2023

NVS-Adapter: 单图像即插即用的新视角合成

提出了一种名为 NVS-Adapter 的有效方法，它是用于 T2I 模型的即插即用模块，能够生成具有几何一致性的多视图，并在不完全微调 T2I 模型的情况下在基准测试上取得高性能。

Dec, 2023

NeuralMVS: 多视图立体与新视角合成的桥梁

本文提出了一种新型网络，利用少量稀疏图像输入，能够恢复三维场景几何信息和高分辨率彩色图像，并通过粗略到精细的球形追踪技术可以大幅提高速度，方法在多个数据集中都取得了可比较的精度。

Aug, 2021

ZeroNVS: 从单张真实图像实现零射击 360 度视角综合

我们引入了一个三维感知扩散模型 ZeroNVS，用于野外场景下的单图像新视图合成。通过训练一种生成式先验模型来处理多物体场景和复杂背景带来的挑战，提出了新的技术。我们还提出了一种新颖的相机条件参数化和归一化方案，以解决深度尺度的二义性问题。此外，我们注意到 Score Distillation Sampling（SDS）在蒸馏 360 度场景时倾向于截断复杂背景的分布，并提出了 “SDS anchoring” 以改善合成新视图的多样性。我们的模型在 DTU 数据集的零样本设置中取得了新的 LPIPS 优势，甚至优于专门在 DTU 上训练的方法。我们进一步将具有挑战性的 Mip-NeRF 360 数据集调整为单图像新视图合成的新基准，并在该设置中展现出强大的性能。我们的代码和数据位于此 http URL。

Oct, 2023

从宽基线立体对学习生成新视角

介绍了一种用于单个广角立体图像对的新视角合成的方法，包括 3D 场景重构和外观变化的先验模型，提出了一种多视角变换编码器、图像上的极线采样方案和轻量级交叉注意力渲染器，通过大规模实际数据集的训练，证明了模型学习到了强大的多视角几何先验，大大缩短了渲染时间，并在两个实际数据集上得到了显著的优越性能。

Apr, 2023

神经辐射场的多任务视图合成

多任务视觉学习的创新问题设置，将多任务预测重新解释为多个新视角综合任务，使用 MuvieNeRF 框架同时综合多个场景属性，通过 Cross-Task Attention 和 Cross-View Attention 模块实现对多个视角和任务的高效信息利用。

Sep, 2023

视角文本倒置：通过预训练 2D 扩散模型释放新颖视图综合

通过冻结的扩散模型，我们的方法 ViewNeTI 可以控制生成图像中物体的三维观点，以解决新颖视角合成的问题，并且拥有良好的语义细节和照片般逼真的单视图新颖视角合成预测。

Sep, 2023