扩散模型已经具有语义潜空间

ICLROct, 2022

Diffusion Models already have a Semantic Latent Space

Mingi Kwon, Jaeseok Jeong, Youngjung Uh

TL;DR通过对预训练扩散模型进行不对称反演处理（Asyrp），我们提出了一种名为 h-space 的语义潜空间，它具有良好的属性，可用于语义图像操作。此方法适用于各种架构（DDPM ++，iD-DPM 和 ADM）和数据集（CelebA-HQ，AFHQ-dog，LSUN-church，LSUN-bedroom 和 METFACES），并可通过定量措施（间隔的编辑强度和时间步骤上的质量缺陷）进行编辑和质量提升。

Abstract

diffusion models achieve outstanding generative performance in various domains. Despite their great success, they lack semantic latent space which is essential for controlling the →

diffusion models latent space semantic image manipulation generative process quality boost

发现论文，激发创造

使用潜在扩散模型进行高分辨率图像合成

通过在预训练的自编码器的潜在空间中应用扩散模型，引入交叉注意力层到模型体系结构中，以更少的计算要求取得接近最优的性能，实现高分辨率合成，缩小像素级 DMs 对计算资源的需求。

Dec, 2021

基于扩散的文本转语音模型的语义潜空间

在语音合成领域中，噪声扩散模型（Denoising Diffusion Models，DDMs）的整合应用日益增多。尽管其音频质量出色，但其语义能力的程度未知，并且控制其合成语音的音色属性仍然具有挑战性。受到图像合成的最新进展的启发，我们探索了冻结 TTS 模型的潜在空间，该空间由 DDM 的降噪器的潜在瓶颈激活组成。我们发现这个空间包含丰富的语义信息，并提出了一些新方法来在其中找到语义方向，包括有监督和无监督的方法。然后，我们演示了如何利用这些方法进行即插即用的音频编辑，无需进一步训练、架构更改或数据要求。我们提供了编辑音频的语义和声学质量的证据，并提供了补充样本：[链接]。

Feb, 2024

通过扩散模型实现语义图像合成

本篇论文提出了一种基于 DDPM 的新型框架，用于语义图像合成，通过条件扩散模型来处理语义布局与噪声图像，而引入分类器自由的引导采样策略来进一步提高了生成质量和语义可解释性。

Jun, 2022

基于扩散模型的语义对抗攻击

通过利用最近的扩散模型的潜在空间中的语义信息，本文提出了一个快速生成语义对抗攻击的框架，并在 CelebA-HQ 和 AFHQ 数据集上进行了大量实验，与其他基线相比，我们的框架在多种情境中取得了极高的成功率，最佳 FID 为 36.61。

Sep, 2023

基于双曲几何的潜在扩散模型用于图生成

通过建立基于双曲几何的可解释度度量的几何潜变空间，使用径向和角度几何特性约束的几何潜变过程，HypDiff 框架能有效地捕捉和保留图的拓扑信息，并在各种拓扑结构的图生成中表现出卓越的效果。

May, 2024

分层扩散自编码器与分离图像操作

本论文提出了一种通过使用分层扩散自动编码器 (HDAE) 以及基于截断特征的方法对扩散模型潜空间进行描述，从而实现对图像的多种操作和语义合成。

Apr, 2023

利用扩散模型作为约束：增强图像恢复网络通过扩散模型训练

通过引入自然性导向和语义感知优化机制 DiffLoss，本文旨在改善图像恢复领域中的颜色和纹理失真问题，并提高图像的语义感知恢复能力，以实现图像恢复任务和高级识别任务的连接。

Jun, 2024

平滑扩散：精心创造扩散模型中的平滑潜在空间

最近，扩散模型在文本到图像 (T2I) 生成方面取得了显著进展，合成出高保真度和多样性内容的图像。然而，扩散模型内的潜在空间平滑性仍然很少被研究。我们通过观察到微小的潜在变化导致明显的视觉波动来揭示扩散潜在空间的非平滑性。为了解决这个问题，我们提出了 Smooth Diffusion，这是一种新类别的扩散模型，既高效又平滑。具体而言，我们引入了逐步变化规范化，以确保任意输入潜在的变化与输出图像的变化之间的比例在扩散训练的任何步骤中都是恒定的。此外，我们设计了插值标准差 (ISTD) 度量，以有效评估扩散模型的潜在空间平滑性。广泛的定量和定性实验表明，Smooth Diffusion 在 T2I 生成以及其他各种下游任务中都表现出更好的解决方案。Smooth Diffusion 作为一个即插即用的 Smooth-LoRA 与不同的社区模型配合使用。代码可在此 https 的 URL 获取。

Dec, 2023

扩散超特征：在时空中搜索语义对应关系

本文介绍了 Diffusion Hyperfeatures 框架，该框架用于将多尺度和多时间步长的特征图聚合成每像素特征描述符，可以用于图像生成和反推过程，该框架在语义关键点对应任务中表现出优秀的性能，并且具有灵活的可转移性。

May, 2023

面部生成的可控语义潜在扩散模型

基于新型潜在扩散模型结构的人脸生成和编辑的语义图像合成（SIS）框架，通过使用 SPADE 归一化和交叉注意力层合并形状和样式信息，允许对人脸的每个语义部分进行精确控制，从而实现对真实参考图像的重现、操纵和多样化生成的建议系统优于现有的最先进技术，经过广泛的实验验证了其在质量和数量上的优越性。

Mar, 2024