稳定扩散对三维场景了解多少？

Oct, 2023

What Does Stable Diffusion Know about the 3D Scene?

Guanqi Zhan, Chuanxia Zheng, Weidi Xie, Andrew Zisserman

TL;DR通过探测扩散网络，研究不同的 3D 场景属性，我们发现 Stable Diffusion 在场景几何、支撑关系、阴影和深度方面表现优秀，但对遮挡不够有效。与其他大规模训练的模型相比，如 DINO 和 CLIP，我们发现 Stable Diffusion 的性能更强。

Abstract

Recent advances in generative models like stable diffusion enable the generation of highly photo-realistic images. Our objective in this paper is to probe the diffusion network to determine to what extent it 'und

generative models stable diffusion 3d scene properties probes

发现论文，激发创造

COCO 和 Weed 数据集的稳定扩散

通过稳定扩散模型生成高分辨率图像，并利用这些图像提高检测模型的性能，这项研究有助于将稳定扩散模型应用于不同领域的分类和检测任务。

Dec, 2023

基于图像渲染的去噪传播

通过引入第一种能够快速进行真实世界三维场景的详细重建和生成的推广模型，我们在本研究中提出了三个贡献：首先，引入了一种新的神经场景表示方法 IB-planes，能够有效准确地表示大型三维场景，并在需要时动态分配更多容量以捕捉每张图像中可见的细节；其次，我们提出了一种去噪扩散框架，通过仅使用二维图像而不需要额外的监督信号（如掩码或深度）学习对这种新型三维场景表示的先验知识，从而支持三维重建和生成；第三，我们开发了一种避免将基于图像渲染与扩散模型集成时产生平凡三维解决方案的原则性方法，即通过丢弃某些图像的表示。我们在几个具有挑战性的真实和合成图像数据集上评估了该模型，并在生成、新视图合成和三维重建方面展示了优越的结果。

Feb, 2024

扩散模型是否具备视觉和语言推理能力？

通过引入 DiffusionITM 方法并且使用 Generative-Discriminative Evaluation Benchmark 进行 7 复杂的视觉语言任务的评估，我们发现在 CLEVR 和 Winoground 等组成任务中 Stable Diffusion + DiffusionITM 的结果优于 CLIP。此外，我们发现 Stable Diffusion 2.1 在大部分情况下比 Stable Diffusion 1.5 更少受到刻板印象的影响。

May, 2023

Diffusion$^2$: 通过正交扩散模型的得分组合生成动态 3D 内容

Diffusion$^2$ 是一种新颖的框架，通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识，直接生成密集的多视图和多帧图像，优化连续性 4D 表示，从而在几分钟内生成 4D 内容。

Apr, 2024

基于扩散的 3D 场景生成、优化和规划

SceneDiffuser 是一个用于 3D 场景理解的条件生成模型，通过扩散过程，联合制定了场景感知生成、基于物理的优化和面向目标的规划模块，相对于之前的模型，具有内在的场景感知、基于物理的设计器和面向目标的设计等优点，在人体姿态和运动生成、灵巧握持生成、三维导航路径规划和机器人臂运动规划等任务上表现了极大的潜力。

Jan, 2023

将 3D 几何控制添加到扩散模型中

本篇论文提出了一种利用 3D geometry control 和 visual prompts 的扩展 diffusion models 生成图像的方法，可应用于计算机视觉任务并经过多个数据集的多次实验验证其效果。

Jun, 2023

DiffCLIP: 利用稳定扩散进行语言增强的 3D 分类

本文提出了一种新的预训练框架 DiffCLIP，其结合稳定扩散和 ControlNet，以减小视觉分支中的域间差异，并引入了一种样式提示生成模块，用于少样本任务，在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上进行广泛实验，表明 DiffCLIP 具有强大的 3D 理解能力。使用稳定扩散和样式提示生成，DiffCLIP 在 ScanObjectNN 的 OBJ_BG 数据集上实现了 43.2％的零样本分类精度，这是最先进的技术水平，并且在 ModelNet10 上实现了 80.6％的零样本分类精度，这与最先进的技术水平相当。

May, 2023

使用场景图进行 3D 场景扩散引导

使用场景图进行 3D 场景扩散引导的新方法，通过在去噪网络中使用关系图卷积块来利用场景图提供的相对空间信息，显著提高了场景描述与生成场景之间的对齐。

Aug, 2023

通过扩散特征聚合进行物体姿态估计

基于扩散模型的对象姿态估计方法具有较强的泛化能力，优于目前最先进的方法，并在未见过的对象上取得了 98.2% 的准确率，证明了该方法的强大通用性。

Mar, 2024

扩散模型是几何评论者：使用预训练的扩散先验进行单图像三维编辑

提出一种新颖的图像编辑技术，可以在单幅图像上进行三维操作，如物体旋转和平移。通过使用在广泛的文本 - 图像对上训练的强大图像扩散模型，实现了生成具有大视角变换、高外观和形状一致性的高质量三维感知图像编辑，突破了单幅图像三维感知编辑的可能性的局限。

Mar, 2024