SCP-Diff: 空间 - 分类联合先验的照片级语义图像合成功能

Mar, 2024

SCP-Diff: 空间 - 分类联合先验的照片级语义图像合成功能

SCP-Diff: Photo-Realistic Semantic Image Synthesis with Spatial-Categorical Joint Prior

Huan-ang Gao, Mingju Gao, Jiaju Li, Wenyi Li, Rong Zhi...

TL;DR开发了一种名为 SCP-Diff 的方法来解决语义图像合成中存在的两个主要问题，即大型语义区域内的奇怪子结构和内容与语义掩码的不一致，并在 Cityscapes 和 ADE20K 上取得了卓越成果。

Abstract

semantic image synthesis (SIS) shows good promises for sensor simulation. However, current best practices in this field, based on GANs, have not yet reached the desired level of quality. As latent diffusion models

semantic image synthesis latent diffusion models controlnet sub-structures noise priors

发现论文，激发创造

面部生成的可控语义潜在扩散模型

基于新型潜在扩散模型结构的人脸生成和编辑的语义图像合成（SIS）框架，通过使用 SPADE 归一化和交叉注意力层合并形状和样式信息，允许对人脸的每个语义部分进行精确控制，从而实现对真实参考图像的重现、操纵和多样化生成的建议系统优于现有的最先进技术，经过广泛的实验验证了其在质量和数量上的优越性。

Mar, 2024

随机条件扩散模型用于语义图像合成

提出了一种鲁棒的条件扩散模型，用于语义图像合成，通过标签扩散处理噪声标签，同时引入类别权重的噪声时间表来增强鲁棒性。在实验中证明了该方法在生成高质量样本方面的有效性，并模拟了现实应用中的人类错误情况。

Feb, 2024

面向城市场景实用语义图像合成

本文提出了一种使用无监督学习和鉴别器的框架，通过对城市场景生成逼真的照片来实现自主驾驶，避免大量验证和训练数据的高昂成本。

May, 2023

解锁预训练的图像骨干网络用于语义图像合成

提出了一种新型的基于特征骨干网络和交叉注意力机制的生成对抗网络（GAN）辨别器，用于语义图像合成，实现了在 ADE-20K，COCO-Stuff 和 Cityscapes 数据集上与输入标签地图的图像质量和一致性方面的最先进结果，相较于最近的扩散模型，在推理过程中计算量减少了两个数量级。

Dec, 2023

通过语义扩散引导使图像合成更加可控

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021

ECNet: 有效可控的文本到图像扩散模型

通过引入 Spatial Guidance Injector（SGI）和 Diffusion Consistency Loss（DCL）方法，我们提出了一种更准确的可控端到端文本到图像生成框架，其中 SGI 提供了更准确的条件输入，DCL 加强了对生成输出的控制，实验证明了我们方法在各种条件下显著提升了生成图像的可控性和稳健性，优于现有最先进的可控文本到图像模型。

Mar, 2024

基于语义条件扩散网络的图像字幕生成

本文提出了一种基于 Semantic-Conditional Diffusion Networks（SCD-Net）的图像字幕生成模型，用于有效捕捉离散单词间的依赖性并实现复杂的视觉语言对齐，并采用自举序列训练策略稳定扩散过程，实验证明其在 COCO 数据集上取得了很好的表现。

Dec, 2022

面部图像合成的语义部件自动生成

该研究提出了一种网络结构，可以自动操纵或生成图像物体类别的语义分割掩码，尤其关注人脸的形状操纵，通过嵌入类别到潜在空间并使用双向 LSTM 块和卷积解码器，可以独立地编辑每个类别的嵌入向量以输出一个新的本地操作后的掩码，这项研究结果定量和定性地表明该模型享有较高的生成多样性和控制能力。

Jul, 2023

通过扩散模型实现语义图像合成

本篇论文提出了一种基于 DDPM 的新型框架，用于语义图像合成，通过条件扩散模型来处理语义布局与噪声图像，而引入分类器自由的引导采样策略来进一步提高了生成质量和语义可解释性。

Jun, 2022

基于小波的无监督标签到图像转换

本文提出了一种新的无监督学习范例 (Unsupervised Paradigm for SIS, USIS)，通过使用自监督分割损失和基于整个图像小波的鉴别方法，结合在小波域中的生成器结构，使得语义图像合成 (SIS) 在不需要大量的配对数据的情况下实现，从而弥补了配对和非配对模型之间的性能差距。在三个具有挑战性的数据集上进行测试，证明了新方法的有效性。

May, 2023