NVS-Adapter: 单图像即插即用的新视角合成
通过利用预训练的大规模视频扩散模型的强大生成能力,我们提出了 NVS-Solver,一种新的无需训练的视图合成(NVS)范例,它能够通过单个或多个静态场景视图或动态场景单目视频实现令人惊叹的视觉体验。在我们的理论模型基础上,我们通过迭代地调制与给定场景先验相对应的得分函数来控制视频扩散过程,并根据视图姿势和扩散步数在自适应方式下实现调制。广泛的评估量化和质量化地证明了我们的 NVS-Solver 相对于现有方法在静态和动态场景下的显著优势。
May, 2024
本文提出了一种从单个 RGBD 输入合成新视角图像的方法,通过利用 RGBD 图像中嵌入的深度信息,将 NVS 任务转换成图像转换问题,并使用生成对抗网络实现类似于从新视角拍摄的照片的结果,而不受传统多图像技术的限制。
Nov, 2023
本文提出了一种新型网络,利用少量稀疏图像输入,能够恢复三维场景几何信息和高分辨率彩色图像,并通过粗略到精细的球形追踪技术可以大幅提高速度,方法在多个数据集中都取得了可比较的精度。
Aug, 2021
基于已知视图的创新视图综合的问题,我们提出了一种基于集合的生成模型,可以同时生成多个自洽的新视图,不仅限于生成单个图像,而且可以根据零个、一个或多个视图进行条件生成,可在大量视图生成中保持图像质量,并在像循环和双目轨迹等任务上显著优于其他方法。
Feb, 2024
多视角交叉模块提出了将可变长度的输入数据映射到固定大小的输出数据,进一步提高训练效率的两阶段训练策略。对多个数据集进行定性和定量评估,证明了所提方法相对于以前的方法的有效性。
Dec, 2023
本文介绍了 TOSS,它利用文本信息将单一 RGB 图像转化为创新视角合成(NVS)的任务。TOSS 通过使用文本作为高级语义信息来约束 NVS 的解空间,利用特定于图像和相机姿态的模块进行训练,并引入了针对姿态正确性和精细细节保留的专门训练。实验结果表明,我们提出的 TOSS 在可信度、可控性和多视图一致性方面优于 Zero-1-to-3,并通过全面的剖析验证了引入的语义指导和架构设计的有效性和潜力。
Oct, 2023
本文首先考虑了单张基于图像的新视图合成(NVS)问题中的视角相关效果。为此,我们提出利用 NVS 中的相机运动先验来建模视角相关的外观或效果(VDE),即场景中的负视差。通过识别光斑 “跟随” 相机运动,我们通过在极线的负深度区域上聚合输入像素颜色来融入 VDE。同时,我们提出了一种 “放宽的体积渲染” 近似方法,可以在单次遍历中计算密度,提高了从单张图像进行 NVS 的效率。我们的方法只需从图像序列中学习单张图像 NVS,这是一种完全自我监督学习方法,首次无需深度或相机姿态注释。我们展示了广泛的实验证明,我们的方法可以学习具有 VDE 的 NVS,在 RealEstate10k 和 MannequinChallenge 数据集上优于 SOTA 的单视角 NVS 方法。
Dec, 2023
我们引入了一个三维感知扩散模型 ZeroNVS,用于野外场景下的单图像新视图合成。通过训练一种生成式先验模型来处理多物体场景和复杂背景带来的挑战,提出了新的技术。我们还提出了一种新颖的相机条件参数化和归一化方案,以解决深度尺度的二义性问题。此外,我们注意到 Score Distillation Sampling(SDS)在蒸馏 360 度场景时倾向于截断复杂背景的分布,并提出了 “SDS anchoring” 以改善合成新视图的多样性。我们的模型在 DTU 数据集的零样本设置中取得了新的 LPIPS 优势,甚至优于专门在 DTU 上训练的方法。我们进一步将具有挑战性的 Mip-NeRF 360 数据集调整为单图像新视图合成的新基准,并在该设置中展现出强大的性能。我们的代码和数据位于此 http URL。
Oct, 2023
通过利用生成模型,将零样本新视点合成问题分为两个阶段,即将观察到的区域转化为新视图和对未见过的区域进行幻觉。为了解决 3D 一致性问题,本文提出了一种具有几何约束的极线引导注意力和多视图注意力的场景表示方法。通过多个数据集的定性和定量评估,证明了所提出机制在效果上优于现有方法。
Oct, 2023
本文提出了一种名为 FWD 的新颖视角综合方法,该方法使用稀疏输入,在保持实时性的同时以高质量的合成图像为结果。通过使用显式的深度和可微分渲染,可以获得和当前最先进的方法相当的结果,速度提高了 130-1000 倍,并具有更好的感知质量。该方法可以无缝地集成传感器深度,以在保持实时速度的同时提高图像质量。本方法有望得到越来越广泛而有用的应用。
Jun, 2022