- SemFlow:通过修正流将语义分割和图像合成绑定在一起
基于扩散的统一框架(SemFlow)将语义分割和语义图像合成作为一对相反问题,通过训练一个常微分方程(ODE)模型在真实图像和语义掩码的分布之间进行传输,解决了扩散输出的随机性与分割结果唯一性之间的矛盾,同时提升生成结果的多样性,该框架在语 - CVPR语义脸部图像合成的对抗性身份注入
通过使用一个交叉注意力机制来合并身份、风格和语义特征生成尽可能与输入相似的人脸的 SIS 架构,不仅适用于保护身份,而且在面部识别对抗攻击中也是有效的。
- IIDM:语义图像合成的图像到图像扩散模型
本文提出了一种基于图像扩散模型的语义图像合成方法,通过引入随机噪声和逐渐去噪的方式,以分割掩模为指导生成高质量图像,并进一步通过细化、颜色转移和模型集成等技术提高合成质量。大量实验证明本方法在性能上明显超越了现有的最先进方法。
- 面部生成的可控语义潜在扩散模型
基于新型潜在扩散模型结构的人脸生成和编辑的语义图像合成(SIS)框架,通过使用 SPADE 归一化和交叉注意力层合并形状和样式信息,允许对人脸的每个语义部分进行精确控制,从而实现对真实参考图像的重现、操纵和多样化生成的建议系统优于现有的最先 - SCP-Diff: 空间 - 分类联合先验的照片级语义图像合成功能
开发了一种名为 SCP-Diff 的方法来解决语义图像合成中存在的两个主要问题,即大型语义区域内的奇怪子结构和内容与语义掩码的不一致,并在 Cityscapes 和 ADE20K 上取得了卓越成果。
- PLACE:自适应布局 - 语义融合的语义图像合成
提出了 adaPtive LAyout-semantiC fusion modulE (PLACE) 以及附加的 Semantic Alignment (SA) loss,通过利用预训练模型来改善语义图像合成中的布局和语义问题,实现合成图像 - 随机条件扩散模型用于语义图像合成
提出了一种鲁棒的条件扩散模型,用于语义图像合成,通过标签扩散处理噪声标签,同时引入类别权重的噪声时间表来增强鲁棒性。在实验中证明了该方法在生成高质量样本方面的有效性,并模拟了现实应用中的人类错误情况。
- 无条件生成器的语义图像合成
通过使用预训练的无条件生成器和重新排列特征图来生成与给定语义掩模相匹配的逼真图像。该方法在各种应用中表现出优势,包括真实图像的自由空间编辑,素描转照片,甚至涂鸦转照片。
- CVPR解锁预训练的图像骨干网络用于语义图像合成
提出了一种新型的基于特征骨干网络和交叉注意力机制的生成对抗网络(GAN)辨别器,用于语义图像合成,实现了在 ADE-20K,COCO-Stuff 和 Cityscapes 数据集上与输入标签地图的图像质量和一致性方面的最先进结果,相较于最近 - 腹部 CT 的语义图像合成
我们研究了基于条件扩散模型的腹部 CT 语义图像合成,并对三种不同的扩散模型以及其他基于生成对抗网络的方法进行了系统评估。实验结果表明,扩散模型能够合成具有更好质量的腹部 CT 图像。此外,将语义掩码和输入分别编码比简单拼接更加有效。
- 通过类自适应交叉注意力实现语义图像合成
我们设计了一种使用交叉注意力层代替反归一化层进行图像生成条件的新型架构,旨在实现全局和局部风格转换,并保留先进的重建质量。
- ICLR多尺度对比学习引导下的边缘指导生成对抗网络用于语义图像合成
提出了一种新颖的 ECGAN 用于具有挑战性的语义图像合成任务,通过使用边缘作为中间表示,并采用注意力引导的边缘传输模块进行图像生成,设计了一个有效的模块来选择性地突出显示根据原始语义布局的类依赖特征图,通过对比学习方法和多尺度对比学习方法 - 面部图像合成的语义部件自动生成
该研究提出了一种网络结构,可以自动操纵或生成图像物体类别的语义分割掩码,尤其关注人脸的形状操纵,通过嵌入类别到潜在空间并使用双向 LSTM 块和卷积解码器,可以独立地编辑每个类别的嵌入向量以输出一个新的本地操作后的掩码,这项研究结果定量和定 - 无参考用户可控语义图像合成
本研究提出了一种名为 RUCGAN 的模型,以单一颜色表示特定语义区域的风格,通过将颜色作为用户期望的样式注入每个语义布局,实现无参考语义图像合成,并能合成具有不寻常颜色的语义图像,其在各种具有挑战性的数据集上的实验性结果表明,该方法优于现 - CVPR从物体形状推断和利用部件以提高语义图像合成
本文提出了 iPOSE 方法,利用预先定义少量的部分支持地图来学习一个 PartNet,从而推断部分并将其应用于语义图像合成,其中还引入了部分语义调制,通过实验结果表明该方法在 qualitativer 和 quantitativer 方面 - 面向城市场景实用语义图像合成
本文提出了一种使用无监督学习和鉴别器的框架,通过对城市场景生成逼真的照片来实现自主驾驶,避免大量验证和训练数据的高昂成本。
- 基于小波的无监督标签到图像转换
本文提出了一种新的无监督学习范例 (Unsupervised Paradigm for SIS, USIS),通过使用自监督分割损失和基于整个图像小波的鉴别方法,结合在小波域中的生成器结构,使得语义图像合成 (SIS) 在不需要大量的配对数 - CVPR具有类别亲和性传递的小样本语义图像合成
采用转移学习方法,使用大规模数据源自动估算源类和目标类之间的关系,建立类亲和矩阵并将其作为源模型的第一层,然后将源模型进一步微调来适应目标领域,并应用于基于 GAN 和扩散的体系结构,实现语义图片合成技术的迁移,该方法在现有的生成图像模型的 - ICLR利用语义耦合的 VQ 模型进行语义图像合成
通过与向量量化模型预训练的条件式合成潜空间,联合学习条件潜空间和图像潜空间,进一步提高自回归模型的建模能力,并在多个图像数据集上验证其能有效改进语义图像合成性能。
- 通过扩散模型实现语义图像合成
本篇论文提出了一种基于 DDPM 的新型框架,用于语义图像合成,通过条件扩散模型来处理语义布局与噪声图像,而引入分类器自由的引导采样策略来进一步提高了生成质量和语义可解释性。