潜在扩散中的场景图条件

Oct, 2023

Scene Graph Conditioning in Latent Diffusion

Frank Fundel

TL;DR利用 ControlNet 和 Gated Self-Attention，我们提出了多种方法来解决稀缺的图像和场景图数据，通过场景图生成高质量图像，超越了之前的方法。

Abstract

diffusion models excel in image generation but lack detailed semantic control using text prompts. Additional techniques have been develope

发现论文，激发创造

本文提出了一种针对扩散模型的新型引导方法，通过边界框和分割映射信息进行推理时间的采样过程，有效提高了文本到图像生成的准确性和分辨率，从而在场景图像生成方面取得了更好的表现和效果，并在公共基准测试中超越了基于场景图像和文本的扩散模型。

Apr, 2023

利用预训练的文本到图像扩散模型和 CLIP 引导，我们的方法通过消除中间布局的预测，将图形知识转化为图像，从而生成与给定场景图一致的图像。实验证明，我们的方法在 COCO-stuff 和 Visual Genome 数据集的标准基准上优于现有方法。

Jan, 2024

使用场景图进行 3D 场景扩散引导的新方法，通过在去噪网络中使用关系图卷积块来利用场景图提供的相对空间信息，显著提高了场景描述与生成场景之间的对齐。

Aug, 2023

通过学习场景图嵌入来直接优化其与图像的对齐以生成语义可操作的图像，该方法使用了遮蔽自编码丢失和对比丢失两种方法训练嵌入，并建立了潜在扩散模型来实现场景图像的生成。在 Visual Genome 和 COCO-Stuff 数据集上，该方法表现优异，超过了当前最好的方法。

Nov, 2022

本文提出了一种基于 Semantic-Conditional Diffusion Networks（SCD-Net）的图像字幕生成模型，用于有效捕捉离散单词间的依赖性并实现复杂的视觉语言对齐，并采用自举序列训练策略稳定扩散过程，实验证明其在 COCO 数据集上取得了很好的表现。

Dec, 2022

本文提出了一种基于场景图的递增式图像生成模型，该模型通过使用递归神经网络、图卷积网络以及生成对抗网络来生成逼真的多对象图像，实验结果表明其在生成逐步增长场景图的情况下比其他方法更优。

May, 2019

本文介绍了一项新的生成任务：联合场景图像生成。通过引入 DiffuseSG 模型，本文探索了生成逼真的场景图，使得图像生成具备高效和可解释性的控制能力，并展示了该模型在场景图生成以及相关应用中的优越性。

Jan, 2024

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021

本文探讨了使用场景图在图像字幕生成中的应用，研究表明添加场景图编码器可以提高字幕描述效果，提出了一种 C-GAT 模型，该模型条件化图更新功能，使用高质量的场景图可与现有的底部 - 顶部基准模型相比获得 3.3 CIDEr 改进。

Sep, 2020

提出了一种利用场景图生成图像的模型，其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局，并使用级联细化网络将布局转换为图像，训练对抗鉴别器来确保生成的图像具有逼真度。

Apr, 2018