NViST:使用 Transformers 从单张图像中合成真实环境新视角
本研究提出利用全局和局部特征构建表达式三维模型的方法,通过训练 MLP 网络,实现从单个未定位图像中合成新视角,并在多个物体类别上进行泛化,获得了比现有方法更出色的性能和更丰富的细节渲染。
Jul, 2022
本研究提出了一种基于 2D 的神经网络方法,结合编码键和转换模型,用于实现新颖视角合成,在不需要显式 3D 理解的情况下,相比于 NeRF 方法更高效。
Mar, 2022
本文提出了一种从单个 RGBD 输入合成新视角图像的方法,通过利用 RGBD 图像中嵌入的深度信息,将 NVS 任务转换成图像转换问题,并使用生成对抗网络实现类似于从新视角拍摄的照片的结果,而不受传统多图像技术的限制。
Nov, 2023
利用预训练的无监督自监督视觉变换器(DINOv2)对单类别数据集进行聚类,从而识别物体姿势,并带有训练在姿势标签上的姿势条件扩散模型,同时在推断时利用跨帧注意力以确保视角的一致性,进一步通过强化注意力指导提高,从而在实际图像上实现了优越于先前工作的新视角合成的模型 MIRAGE,同时在以预训练的稳定扩散生成的合成图像上进行的实验显示 MIRAGE 对于多样的纹理和几何具有鲁棒性。
Dec, 2023
提出了一种名为 NVS-Adapter 的有效方法,它是用于 T2I 模型的即插即用模块,能够生成具有几何一致性的多视图,并在不完全微调 T2I 模型的情况下在基准测试上取得高性能。
Dec, 2023
本文提出了一种新型网络,利用少量稀疏图像输入,能够恢复三维场景几何信息和高分辨率彩色图像,并通过粗略到精细的球形追踪技术可以大幅提高速度,方法在多个数据集中都取得了可比较的精度。
Aug, 2021
我们引入了一个三维感知扩散模型 ZeroNVS,用于野外场景下的单图像新视图合成。通过训练一种生成式先验模型来处理多物体场景和复杂背景带来的挑战,提出了新的技术。我们还提出了一种新颖的相机条件参数化和归一化方案,以解决深度尺度的二义性问题。此外,我们注意到 Score Distillation Sampling(SDS)在蒸馏 360 度场景时倾向于截断复杂背景的分布,并提出了 “SDS anchoring” 以改善合成新视图的多样性。我们的模型在 DTU 数据集的零样本设置中取得了新的 LPIPS 优势,甚至优于专门在 DTU 上训练的方法。我们进一步将具有挑战性的 Mip-NeRF 360 数据集调整为单图像新视图合成的新基准,并在该设置中展现出强大的性能。我们的代码和数据位于此 http URL。
Oct, 2023
介绍了一种用于单个广角立体图像对的新视角合成的方法,包括 3D 场景重构和外观变化的先验模型,提出了一种多视角变换编码器、图像上的极线采样方案和轻量级交叉注意力渲染器,通过大规模实际数据集的训练,证明了模型学习到了强大的多视角几何先验,大大缩短了渲染时间,并在两个实际数据集上得到了显著的优越性能。
Apr, 2023
多任务视觉学习的创新问题设置,将多任务预测重新解释为多个新视角综合任务,使用 MuvieNeRF 框架同时综合多个场景属性,通过 Cross-Task Attention 和 Cross-View Attention 模块实现对多个视角和任务的高效信息利用。
Sep, 2023
通过冻结的扩散模型,我们的方法 ViewNeTI 可以控制生成图像中物体的三维观点,以解决新颖视角合成的问题,并且拥有良好的语义细节和照片般逼真的单视图新颖视角合成预测。
Sep, 2023