VaLID:用于新视角合成的可变长度输入扩散
本文提出了一种新型网络,利用少量稀疏图像输入,能够恢复三维场景几何信息和高分辨率彩色图像,并通过粗略到精细的球形追踪技术可以大幅提高速度,方法在多个数据集中都取得了可比较的精度。
Aug, 2021
本文提出了一种姿态引导扩散模型来从单张图像中生成一致的、持久的新视角视频,并设计了一个利用极线作为约束的注意力层以促进不同视角之间的关联。实验结果表明,该模型在合成和真实数据集上表现优异,胜过基于Transformer和GAN的现有方法。
Mar, 2023
我们提出了一种简单而有效的框架 Efficient-3DiM,用于学习单张图像的新视角合成器,通过减小训练开销,包括精心设计的时间步长采样策略、更优质的三维特征提取器和增强的训练方案,实现了将总训练时间从10天缩短到不到1天,并在相同计算平台上(8个Nvidia A100 GPU实例)加速训练过程。我们进行了全面的实验来证明我们提出方法的高效性和广泛适用性。
Oct, 2023
我们引入了一个三维感知扩散模型ZeroNVS,用于野外场景下的单图像新视图合成。通过训练一种生成式先验模型来处理多物体场景和复杂背景带来的挑战,提出了新的技术。我们还提出了一种新颖的相机条件参数化和归一化方案,以解决深度尺度的二义性问题。此外,我们注意到Score Distillation Sampling(SDS)在蒸馏360度场景时倾向于截断复杂背景的分布,并提出了“SDS anchoring”以改善合成新视图的多样性。我们的模型在DTU数据集的零样本设置中取得了新的LPIPS优势,甚至优于专门在DTU上训练的方法。我们进一步将具有挑战性的Mip-NeRF 360数据集调整为单图像新视图合成的新基准,并在该设置中展现出强大的性能。我们的代码和数据位于此http URL。
Oct, 2023
本文提出了一种从单个RGBD输入合成新视角图像的方法,通过利用RGBD图像中嵌入的深度信息,将NVS任务转换成图像转换问题,并使用生成对抗网络实现类似于从新视角拍摄的照片的结果,而不受传统多图像技术的限制。
Nov, 2023
通过深度学习,本研究提出了一种新颖的视角合成方法ViewFusion,其以端到端的生成方式灵活地综合多个输入视角,消除噪声并生成高质量的视角,相较于现有方法具有更好的泛化性能和适用性。
Feb, 2024
Ctrl123是一种基于封闭循环转录的新颖视图合成扩散方法,它在姿态敏感特征空间中强制生成视角和真实数据的一致性,在NVS和3D重建任务中取得了显著的改进。
Mar, 2024
通过利用预训练的大规模视频扩散模型的强大生成能力,我们提出了NVS-Solver,一种新的无需训练的视图合成(NVS)范例,它能够通过单个或多个静态场景视图或动态场景单目视频实现令人惊叹的视觉体验。在我们的理论模型基础上,我们通过迭代地调制与给定场景先验相对应的得分函数来控制视频扩散过程,并根据视图姿势和扩散步数在自适应方式下实现调制。广泛的评估量化和质量化地证明了我们的NVS-Solver相对于现有方法在静态和动态场景下的显著优势。
May, 2024