稳定扩散对三维场景了解多少?
通过引入第一种能够快速进行真实世界三维场景的详细重建和生成的推广模型,我们在本研究中提出了三个贡献:首先,引入了一种新的神经场景表示方法 IB-planes,能够有效准确地表示大型三维场景,并在需要时动态分配更多容量以捕捉每张图像中可见的细节;其次,我们提出了一种去噪扩散框架,通过仅使用二维图像而不需要额外的监督信号(如掩码或深度)学习对这种新型三维场景表示的先验知识,从而支持三维重建和生成;第三,我们开发了一种避免将基于图像渲染与扩散模型集成时产生平凡三维解决方案的原则性方法,即通过丢弃某些图像的表示。我们在几个具有挑战性的真实和合成图像数据集上评估了该模型,并在生成、新视图合成和三维重建方面展示了优越的结果。
Feb, 2024
通过引入 DiffusionITM 方法并且使用 Generative-Discriminative Evaluation Benchmark 进行 7 复杂的视觉语言任务的评估,我们发现在 CLEVR 和 Winoground 等组成任务中 Stable Diffusion + DiffusionITM 的结果优于 CLIP。此外,我们发现 Stable Diffusion 2.1 在大部分情况下比 Stable Diffusion 1.5 更少受到刻板印象的影响。
May, 2023
Diffusion$^2$ 是一种新颖的框架,通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识,直接生成密集的多视图和多帧图像,优化连续性 4D 表示,从而在几分钟内生成 4D 内容。
Apr, 2024
SceneDiffuser 是一个用于 3D 场景理解的条件生成模型,通过扩散过程,联合制定了场景感知生成、基于物理的优化和面向目标的规划模块,相对于之前的模型,具有内在的场景感知、基于物理的设计器和面向目标的设计等优点,在人体姿态和运动生成、灵巧握持生成、三维导航路径规划和机器人臂运动规划等任务上表现了极大的潜力。
Jan, 2023
本篇论文提出了一种利用 3D geometry control 和 visual prompts 的扩展 diffusion models 生成图像的方法,可应用于计算机视觉任务并经过多个数据集的多次实验验证其效果。
Jun, 2023
本文提出了一种新的预训练框架 DiffCLIP,其结合稳定扩散和 ControlNet,以减小视觉分支中的域间差异,并引入了一种样式提示生成模块,用于少样本任务,在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上进行广泛实验,表明 DiffCLIP 具有强大的 3D 理解能力。使用稳定扩散和样式提示生成,DiffCLIP 在 ScanObjectNN 的 OBJ_BG 数据集上实现了 43.2%的零样本分类精度,这是最先进的技术水平,并且在 ModelNet10 上实现了 80.6%的零样本分类精度,这与最先进的技术水平相当。
May, 2023
使用场景图进行 3D 场景扩散引导的新方法,通过在去噪网络中使用关系图卷积块来利用场景图提供的相对空间信息,显著提高了场景描述与生成场景之间的对齐。
Aug, 2023
提出一种新颖的图像编辑技术,可以在单幅图像上进行三维操作,如物体旋转和平移。通过使用在广泛的文本 - 图像对上训练的强大图像扩散模型,实现了生成具有大视角变换、高外观和形状一致性的高质量三维感知图像编辑,突破了单幅图像三维感知编辑的可能性的局限。
Mar, 2024