PerlDiff: 使用透视布局扩散模型实现可控街景合成
Control3Diff 是结合扩散模型和 3D GAN 的 3D 扩散模型,其将潜在空间直观建模并允许通过控制输入快速生成 3D 图像。该方法在多个数据集中表现优秀,包括 FFHQ, AFHQ, and ShapeNet。
Apr, 2023
通过引入新的几何约束条件在生成模型的训练过程中强制进行透视准确性的要求,我们展示了使用该约束条件训练的生成模型的输出既更加逼真,同时还提高了在生成图像上进行训练的下游模型的性能。主观人类实验表明,使用我们约束条件训练的潜在扩散模型生成的图像在 70% 的情况下优于 Stable Diffusion V2 模型生成的图像。我们的图像微调后的 SOTA 单眼深度估计模型如 DPT 和 PixelFormer 在 KITTI 测试集上的零 - shot 转移中 RMSE 上超过真实图像训练的原始模型最多 7.03%,SqRel 上超过 19.3%。
Dec, 2023
通过使用大规模预训练的扩散模型,我们提出了一种可控的图像合成方法,将图像混合、图像协调、视角综合和生成式合成统一为一个扩散模型,同时设计了一个自监督训练框架和一个定制化的训练数据准备方法,并通过局部增强模块提高合成图像中前景细节的保真性。我们的方法在公共基准和实际数据上进行了评估,结果表明我们的方法比现有方法能够生成更加忠实和可控的合成图像。
Aug, 2023
本篇论文提出了一种利用 3D geometry control 和 visual prompts 的扩展 diffusion models 生成图像的方法,可应用于计算机视觉任务并经过多个数据集的多次实验验证其效果。
Jun, 2023
当前的感知模型依赖于资源密集型的数据集,因此需要创新性的解决方案。通过利用扩散模型和合成数据,通过从各种注释中构建图像输入,有助于下游任务。DetDiffusion 首次统一了生成模型和感知模型,解决了为感知模型生成有效数据的挑战。为了增强感知模型的图像生成能力,我们引入了感知感知损失(P.A. 损失),通过分割改善图像的质量和可控性。为了提高特定感知模型的性能,我们的方法在生成过程中提取和利用感知感知属性(P.A. 属性)进行自定义数据增强。目标检测任务的实验结果突出了 DetDiffusion 卓越的性能,在布局引导生成方面建立了新的最先进技术水平。此外,DetDiffusion 生成的图像合成能够有效增强训练数据,显著提高下游检测性能。
Mar, 2024
该研究探索了使用生成对抗网络在三维空间中进行图像合成的可能性,并提出了一种无监督的方法,可从原始图像中解开简单场景的隐含三维因素。与纯二维基线相比,该方法允许合成与视角或物体姿势变化一致的场景,可用于实现 3D 可控图像合成,生成具有可解释性的表示形式。
Dec, 2019
通过引入 MVControl 神经网络架构,我们成功地提出了一种能够增强现有预训练的多视角二维扩散模型并结合额外输入条件(如边缘图)的方法。通过我们的方法,实现了可控的多视角图像生成和视角一致的三维内容创作。
Nov, 2023
使用合成图像来提升感知模型的性能是计算机视觉中长期存在的研究挑战,在多视角摄像头的视觉为中心的自动驾驶系统中变得更加突出,由于一些长尾场景无法收集。在 BEV 分割布局的指导下,现有的生成网络似乎在仅根据场景级度量进行评估时能够合成逼真的街景图像。然而,一旦放大,它们通常无法生成准确的前景和背景细节,如航向。为此,我们提出了一种名为 BEVControl 的两阶段生成方法,可以生成准确的前景和背景内容。与类似分割的输入不同,它还支持手绘风格的输入,这对人类进行编辑更加灵活。此外,我们提出了一个全面的多级评估协议,以公平比较生成的场景、前景对象和背景几何的质量。我们广泛的实验表明,我们的 BEVControl 在前景分割 mIoU 上比现有方法 BEVGen 有显着提升,从 5.89 到 26.80。此外,我们还证明了使用 BEVControl 生成的图像来训练下游感知模型,平均 NDS 分数提高了 1.29。
Aug, 2023