VaLID:用于新视角合成的可变长度输入扩散
本文提出了一种新型网络,利用少量稀疏图像输入,能够恢复三维场景几何信息和高分辨率彩色图像,并通过粗略到精细的球形追踪技术可以大幅提高速度,方法在多个数据集中都取得了可比较的精度。
Aug, 2021
本文提出了一种姿态引导扩散模型来从单张图像中生成一致的、持久的新视角视频,并设计了一个利用极线作为约束的注意力层以促进不同视角之间的关联。实验结果表明,该模型在合成和真实数据集上表现优异,胜过基于Transformer和GAN的现有方法。
Mar, 2023
我们提出了一种简单而有效的框架 Efficient-3DiM,用于学习单张图像的新视角合成器,通过减小训练开销,包括精心设计的时间步长采样策略、更优质的三维特征提取器和增强的训练方案,实现了将总训练时间从10天缩短到不到1天,并在相同计算平台上(8个Nvidia A100 GPU实例)加速训练过程。我们进行了全面的实验来证明我们提出方法的高效性和广泛适用性。
Oct, 2023
本文提出了一种从单个RGBD输入合成新视角图像的方法,通过利用RGBD图像中嵌入的深度信息,将NVS任务转换成图像转换问题,并使用生成对抗网络实现类似于从新视角拍摄的照片的结果,而不受传统多图像技术的限制。
Nov, 2023
Ctrl123是一种基于封闭循环转录的新颖视图合成扩散方法,它在姿态敏感特征空间中强制生成视角和真实数据的一致性,在NVS和3D重建任务中取得了显著的改进。
Mar, 2024
通过利用预训练的大规模视频扩散模型的强大生成能力,我们提出了NVS-Solver,一种新的无需训练的视图合成(NVS)范例,它能够通过单个或多个静态场景视图或动态场景单目视频实现令人惊叹的视觉体验。在我们的理论模型基础上,我们通过迭代地调制与给定场景先验相对应的得分函数来控制视频扩散过程,并根据视图姿势和扩散步数在自适应方式下实现调制。广泛的评估量化和质量化地证明了我们的NVS-Solver相对于现有方法在静态和动态场景下的显著优势。
May, 2024
本文解决了从单个输入图像合成新视图这一具有挑战性的任务。我们采用现代扩散模型架构进行端到端的视图合成,显著超越了之前的最先进技术。研究表明,尽管几何信息编码方法可能提升性能,但与改进的生成模型相比,其影响较小,并且引入的新训练方案利用单视图数据集,提升了对非领域内容场景的泛化能力。
Nov, 2024
本研究聚焦于稀疏输入视图合成问题,主要解决在仅有少量视角图像时合成场景新视角的困难。论文提出了一种新颖的方法,通过应用现代3D表示技术,如辐射场和多平面图像,来提升合成图像的质量,并证实在静态和动态场景下都能有效提高图像渲染效果。
Nov, 2024