Zero123-6D:RGB 类别级别 6D 姿态估计的零样本新视角合成
我们引入了一个三维感知扩散模型 ZeroNVS,用于野外场景下的单图像新视图合成。通过训练一种生成式先验模型来处理多物体场景和复杂背景带来的挑战,提出了新的技术。我们还提出了一种新颖的相机条件参数化和归一化方案,以解决深度尺度的二义性问题。此外,我们注意到 Score Distillation Sampling(SDS)在蒸馏 360 度场景时倾向于截断复杂背景的分布,并提出了 “SDS anchoring” 以改善合成新视图的多样性。我们的模型在 DTU 数据集的零样本设置中取得了新的 LPIPS 优势,甚至优于专门在 DTU 上训练的方法。我们进一步将具有挑战性的 Mip-NeRF 360 数据集调整为单图像新视图合成的新基准,并在该设置中展现出强大的性能。我们的代码和数据位于此 http URL。
Oct, 2023
使用基于扩散的模型,结合现有的二维扩散骨架和三维特征体,进行三维感知的图像生成,同时具备自回归生成 3D 一致的序列能力。在合成渲染图像和实际物体上展示了最先进的效果。
Apr, 2023
本文提出了一种姿态引导扩散模型来从单张图像中生成一致的、持久的新视角视频,并设计了一个利用极线作为约束的注意力层以促进不同视角之间的关联。实验结果表明,该模型在合成和真实数据集上表现优异,胜过基于 Transformer 和 GAN 的现有方法。
Mar, 2023
通过预定制技术在视频帧上微调预训练的 RGB-D 扩散模型,然后将知识从微调的模型提取到包含动态和静态神经辐射场(NeRF)组件的 4D 表示中,实现几何一致性并保持场景的一致性,从而进一步推进动态新视角合成。
Jan, 2024
基于扩散模型和逆扩散算法的 6D 物体姿态估计框架,在减少噪声和不确定性的基础上实现准确的 2D-3D 对应,并通过对物体特征进行条件优化,取得了较好的性能。
Dec, 2023
通过使用预训练的 Vision Transformers(ViT)提取的视觉描述符,我们引入了 ZS6D 方法,用于零样本新目标 6D 姿态估计,该方法在众多最新的姿态估计方法上表现卓越,无需进行特定任务的微调。我们在 LMO、YCBV 和 TLESS 等三个数据集上进行了实验,并与两种方法进行了比较,结果在所有三个数据集上相较于其中一种方法有显著提升,在两个数据集上相较于另一种方法有提升。
Sep, 2023
本文探讨了一种新的开放式少样本目标 6D 姿态估计问题,并提出了一种密集的 RGBD 原型匹配框架,加上深度外观和几何相关性的先验,以及一种在线纹理融合方法,为解决这个问题建立了基准。
Mar, 2022
我们提出了 DiffPortrait3D,这是一种条件扩散模型,能够从一个野外肖像合成一致的 3D 真实场景。我们利用大规模图像数据预训练的 2D 扩散模型作为渲染骨干,通过外貌和相机姿势的解耦集中控制对图像进行去噪。我们进一步引入可训练的跨视角注意力模块以增强视角一致性,并在推断过程中实施一种新颖的 3D 感知噪声生成过程。在野外和多视角基准测试上,我们展示了优于现有方法的结果。
Dec, 2023
我们提出了一种简单而有效的框架 Efficient-3DiM,用于学习单张图像的新视角合成器,通过减小训练开销,包括精心设计的时间步长采样策略、更优质的三维特征提取器和增强的训练方案,实现了将总训练时间从 10 天缩短到不到 1 天,并在相同计算平台上(8 个 Nvidia A100 GPU 实例)加速训练过程。我们进行了全面的实验来证明我们提出方法的高效性和广泛适用性。
Oct, 2023