从零到英雄:通过注意力图筛选增强零样本新视角合成
通过利用生成模型,将零样本新视点合成问题分为两个阶段,即将观察到的区域转化为新视图和对未见过的区域进行幻觉。为了解决 3D 一致性问题,本文提出了一种具有几何约束的极线引导注意力和多视图注意力的场景表示方法。通过多个数据集的定性和定量评估,证明了所提出机制在效果上优于现有方法。
Oct, 2023
我们引入了一个三维感知扩散模型 ZeroNVS,用于野外场景下的单图像新视图合成。通过训练一种生成式先验模型来处理多物体场景和复杂背景带来的挑战,提出了新的技术。我们还提出了一种新颖的相机条件参数化和归一化方案,以解决深度尺度的二义性问题。此外,我们注意到 Score Distillation Sampling(SDS)在蒸馏 360 度场景时倾向于截断复杂背景的分布,并提出了 “SDS anchoring” 以改善合成新视图的多样性。我们的模型在 DTU 数据集的零样本设置中取得了新的 LPIPS 优势,甚至优于专门在 DTU 上训练的方法。我们进一步将具有挑战性的 Mip-NeRF 360 数据集调整为单图像新视图合成的新基准,并在该设置中展现出强大的性能。我们的代码和数据位于此 http URL。
Oct, 2023
从一张单一图像中综合多视图 3D 是一项重要且具有挑战性的任务。为了解决这个问题,Zero-1-to-3 方法旨在将二维潜在扩散模型推广到三维范围。我们提出了一个由两个 Zero-1-to-3 模型构建的级联生成框架,名为 Cascade-Zero123,用于解决构建视图之间的几何和视觉一致性的问题。利用自发多视图作为补充信息,我们的 Cascade-Zero123 生成比 Zero-1-to-3 更一致的新视图图像,对于各种复杂和具有挑战性的场景非常有效,包括昆虫、人类、透明物体和堆叠多个物体等。
Dec, 2023
通过将 Diffusion 模型与特征提取技术相结合,本文提出了 Zero123-6D 方法,并在 CO3D 数据集上进行了实验,展示了在类别级别上通过扩展稀疏的纯 RGB 参考视图来提高零侧位姿估计性能、减少数据需求以及消除对深度信息的需求。
Mar, 2024
提出了一种新颖的方法,通过将 T2I 生成模型与单目深度估计相结合的生成扭曲框架,使 T2I 模型能够学习何时扭曲和何时生成,从而解决了从单张图像合成新视角时存在的限制,并在领域内外的场景中优于现有方法。
May, 2024
利用文本到图像生成模型中的语义知识,在具有相似语义但形状可能差异大的物体之间进行视觉外观转换,通过建立跨图像的注意力机制和利用噪声编码或模型内部表示来提高输出图像质量,实现了零训练的目标。
Nov, 2023
本文提出了一种利用场景 3D 几何信息进行新视角生成的方法,通过学习区域感知几何转换网络实现输入图像到目标视角的变换,并在 KITTI 和 ScanNet 数据集上取得了优于现有方法的高质量生成效果。
Apr, 2018
该文提出了一种零样本图片和谐方法,该方法利用了人类长期对和谐图片的先验知识,并通过预训练的生成模型来实现先验,同时引入注意力约束文本来指导和谐方向,并设计一定的方法来保持前景内容结构。实验表明了该方法的有效性。
Jul, 2023
本文提出了一种关注机制的模型以学习适用于未见过的类别识别的属性,在三个常用的零样本学习基准测试上达到了新的最先进效果。
Jul, 2021
零样本反演过程 (ZIP) 是一个框架,将生成的视觉参考和文本引导注入预训练的去噪扩散模型的语义潜空间中,仅使用一个小型神经网络,ZIP 在文本提示的直观控制下产生多样的内容和属性,并对真实图像上的域内和域外属性操作展现了显著的鲁棒性。与最先进的方法相比,ZIP 在提供逼真的编辑效果的同时,生成了同等质量的图像。
Aug, 2023