SCP-Diff: 空间 - 分类联合先验的照片级语义图像合成功能
基于新型潜在扩散模型结构的人脸生成和编辑的语义图像合成(SIS)框架,通过使用 SPADE 归一化和交叉注意力层合并形状和样式信息,允许对人脸的每个语义部分进行精确控制,从而实现对真实参考图像的重现、操纵和多样化生成的建议系统优于现有的最先进技术,经过广泛的实验验证了其在质量和数量上的优越性。
Mar, 2024
提出了一种鲁棒的条件扩散模型,用于语义图像合成,通过标签扩散处理噪声标签,同时引入类别权重的噪声时间表来增强鲁棒性。在实验中证明了该方法在生成高质量样本方面的有效性,并模拟了现实应用中的人类错误情况。
Feb, 2024
提出了一种新型的基于特征骨干网络和交叉注意力机制的生成对抗网络(GAN)辨别器,用于语义图像合成,实现了在 ADE-20K,COCO-Stuff 和 Cityscapes 数据集上与输入标签地图的图像质量和一致性方面的最先进结果,相较于最近的扩散模型,在推理过程中计算量减少了两个数量级。
Dec, 2023
该研究探讨了图像合成模型的细粒度、连续控制,提出了一种新的语义扩散引导统一框架,可以注入预训练的无条件扩散模型的语言或图像指导,并在 FFHQ 和 LSUN 数据集上进行了实验。
Dec, 2021
通过引入 Spatial Guidance Injector(SGI)和 Diffusion Consistency Loss(DCL)方法,我们提出了一种更准确的可控端到端文本到图像生成框架,其中 SGI 提供了更准确的条件输入,DCL 加强了对生成输出的控制,实验证明了我们方法在各种条件下显著提升了生成图像的可控性和稳健性,优于现有最先进的可控文本到图像模型。
Mar, 2024
本文提出了一种基于 Semantic-Conditional Diffusion Networks(SCD-Net)的图像字幕生成模型,用于有效捕捉离散单词间的依赖性并实现复杂的视觉语言对齐,并采用自举序列训练策略稳定扩散过程,实验证明其在 COCO 数据集上取得了很好的表现。
Dec, 2022
该研究提出了一种网络结构,可以自动操纵或生成图像物体类别的语义分割掩码,尤其关注人脸的形状操纵,通过嵌入类别到潜在空间并使用双向 LSTM 块和卷积解码器,可以独立地编辑每个类别的嵌入向量以输出一个新的本地操作后的掩码,这项研究结果定量和定性地表明该模型享有较高的生成多样性和控制能力。
Jul, 2023
本篇论文提出了一种基于 DDPM 的新型框架,用于语义图像合成,通过条件扩散模型来处理语义布局与噪声图像,而引入分类器自由的引导采样策略来进一步提高了生成质量和语义可解释性。
Jun, 2022
本文提出了一种新的无监督学习范例 (Unsupervised Paradigm for SIS, USIS),通过使用自监督分割损失和基于整个图像小波的鉴别方法,结合在小波域中的生成器结构,使得语义图像合成 (SIS) 在不需要大量的配对数据的情况下实现,从而弥补了配对和非配对模型之间的性能差距。在三个具有挑战性的数据集上进行测试,证明了新方法的有效性。
May, 2023