PerlDiff: 使用透视布局扩散模型实现可控街景合成

Jul, 2024

PerlDiff: 使用透视布局扩散模型实现可控街景合成

PerlDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models

Jinhua Zhang, Hualian Sheng, Sijia Cai, Bing Deng, Qiao Liang...

TL;DR我们探究了 PerlDiff（Perspective-Layout Diffusion Models）的整合控制信息的方法，它是一种有效的街景图像生成方法，充分利用了透视三维几何信息，通过网络学习过程中引导街景图像的精确对象级控制，从而提高生成的精度，并且与其他布局控制方法相比具有更强的可控性。

Abstract

controllable generation is considered a potentially vital approach to address the challenge of annotating 3D data, and the precision of such controllable generation becomes particularly imperative in the context of data production for →

controllable generation 3d data annotation autonomous driving perldiff street view image generation

发现论文，激发创造

从单一视角图像中学习可控的三维扩散模型

Control3Diff 是结合扩散模型和 3D GAN 的 3D 扩散模型，其将潜在空间直观建模并允许通过控制输入快速生成 3D 图像。该方法在多个数据集中表现优秀，包括 FFHQ, AFHQ, and ShapeNet。

Apr, 2023

增强扩散模型与 3D 透视几何约束

通过引入新的几何约束条件在生成模型的训练过程中强制进行透视准确性的要求，我们展示了使用该约束条件训练的生成模型的输出既更加逼真，同时还提高了在生成图像上进行训练的下游模型的性能。主观人类实验表明，使用我们约束条件训练的潜在扩散模型生成的图像在 70% 的情况下优于 Stable Diffusion V2 模型生成的图像。我们的图像微调后的 SOTA 单眼深度估计模型如 DPT 和 PixelFormer 在 KITTI 测试集上的零 - shot 转移中 RMSE 上超过真实图像训练的原始模型最多 7.03%，SqRel 上超过 19.3%。

Dec, 2023

基于布局导向的多视角驾驶场景视频生成与潜在扩散模型

通过 DrivingDiffusion 框架，在复杂的城市场景中生成大规模、逼真的多相机自动驾驶视频，无需额外成本。

Oct, 2023

ControlCom：使用扩散模型进行可控图像合成

通过使用大规模预训练的扩散模型，我们提出了一种可控的图像合成方法，将图像混合、图像协调、视角综合和生成式合成统一为一个扩散模型，同时设计了一个自监督训练框架和一个定制化的训练数据准备方法，并通过局部增强模块提高合成图像中前景细节的保真性。我们的方法在公共基准和实际数据上进行了评估，结果表明我们的方法比现有方法能够生成更加忠实和可控的合成图像。

Aug, 2023

将 3D 几何控制添加到扩散模型中

本篇论文提出了一种利用 3D geometry control 和 visual prompts 的扩展 diffusion models 生成图像的方法，可应用于计算机视觉任务并经过多个数据集的多次实验验证其效果。

Jun, 2023

DetDiffusion：将生成模型和感知模型协同工作以提升数据生成和感知能力

当前的感知模型依赖于资源密集型的数据集，因此需要创新性的解决方案。通过利用扩散模型和合成数据，通过从各种注释中构建图像输入，有助于下游任务。DetDiffusion 首次统一了生成模型和感知模型，解决了为感知模型生成有效数据的挑战。为了增强感知模型的图像生成能力，我们引入了感知感知损失（P.A. 损失），通过分割改善图像的质量和可控性。为了提高特定感知模型的性能，我们的方法在生成过程中提取和利用感知感知属性（P.A. 属性）进行自定义数据增强。目标检测任务的实验结果突出了 DetDiffusion 卓越的性能，在布局引导生成方面建立了新的最先进技术水平。此外，DetDiffusion 生成的图像合成能够有效增强训练数据，显著提高下游检测性能。

Mar, 2024

面向无监督学习的生成模型，用于三维可控图像合成

该研究探索了使用生成对抗网络在三维空间中进行图像合成的可能性，并提出了一种无监督的方法，可从原始图像中解开简单场景的隐含三维因素。与纯二维基线相比，该方法允许合成与视角或物体姿势变化一致的场景，可用于实现 3D 可控图像合成，生成具有可解释性的表示形式。

Dec, 2019

MVControl：在多视角扩散中增加条件控制以实现可控的文本到 3D 生成

通过引入 MVControl 神经网络架构，我们成功地提出了一种能够增强现有预训练的多视角二维扩散模型并结合额外输入条件（如边缘图）的方法。通过我们的方法，实现了可控的多视角图像生成和视角一致的三维内容创作。

Nov, 2023

BEVControl: 通过 BEV 草图布局实现多透视一致性准确控制街景元素

使用合成图像来提升感知模型的性能是计算机视觉中长期存在的研究挑战，在多视角摄像头的视觉为中心的自动驾驶系统中变得更加突出，由于一些长尾场景无法收集。在 BEV 分割布局的指导下，现有的生成网络似乎在仅根据场景级度量进行评估时能够合成逼真的街景图像。然而，一旦放大，它们通常无法生成准确的前景和背景细节，如航向。为此，我们提出了一种名为 BEVControl 的两阶段生成方法，可以生成准确的前景和背景内容。与类似分割的输入不同，它还支持手绘风格的输入，这对人类进行编辑更加灵活。此外，我们提出了一个全面的多级评估协议，以公平比较生成的场景、前景对象和背景几何的质量。我们广泛的实验表明，我们的 BEVControl 在前景分割 mIoU 上比现有方法 BEVGen 有显着提升，从 5.89 到 26.80。此外，我们还证明了使用 BEVControl 生成的图像来训练下游感知模型，平均 NDS 分数提高了 1.29。

Aug, 2023

深度学习下可控图像合成的调查

通过深度学习技术与生成模型的应用，研究了 3D 可控图像合成问题，包括视角 / 姿势可控图像合成、结构 / 形状可控图像合成以及 3D 重新照明等方面。

Jul, 2023