扩散模型已经具有语义潜空间
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
在语音合成领域中,噪声扩散模型(Denoising Diffusion Models,DDMs)的整合应用日益增多。尽管其音频质量出色,但其语义能力的程度未知,并且控制其合成语音的音色属性仍然具有挑战性。受到图像合成的最新进展的启发,我们探索了冻结 TTS 模型的潜在空间,该空间由 DDM 的降噪器的潜在瓶颈激活组成。我们发现这个空间包含丰富的语义信息,并提出了一些新方法来在其中找到语义方向,包括有监督和无监督的方法。然后,我们演示了如何利用这些方法进行即插即用的音频编辑,无需进一步训练、架构更改或数据要求。我们提供了编辑音频的语义和声学质量的证据,并提供了补充样本:[链接]。
Feb, 2024
本篇论文提出了一种基于 DDPM 的新型框架,用于语义图像合成,通过条件扩散模型来处理语义布局与噪声图像,而引入分类器自由的引导采样策略来进一步提高了生成质量和语义可解释性。
Jun, 2022
通过利用最近的扩散模型的潜在空间中的语义信息,本文提出了一个快速生成语义对抗攻击的框架,并在 CelebA-HQ 和 AFHQ 数据集上进行了大量实验,与其他基线相比,我们的框架在多种情境中取得了极高的成功率,最佳 FID 为 36.61。
Sep, 2023
通过建立基于双曲几何的可解释度度量的几何潜变空间,使用径向和角度几何特性约束的几何潜变过程,HypDiff 框架能有效地捕捉和保留图的拓扑信息,并在各种拓扑结构的图生成中表现出卓越的效果。
May, 2024
通过引入自然性导向和语义感知优化机制 DiffLoss,本文旨在改善图像恢复领域中的颜色和纹理失真问题,并提高图像的语义感知恢复能力,以实现图像恢复任务和高级识别任务的连接。
Jun, 2024
最近,扩散模型在文本到图像 (T2I) 生成方面取得了显著进展,合成出高保真度和多样性内容的图像。然而,扩散模型内的潜在空间平滑性仍然很少被研究。我们通过观察到微小的潜在变化导致明显的视觉波动来揭示扩散潜在空间的非平滑性。为了解决这个问题,我们提出了 Smooth Diffusion,这是一种新类别的扩散模型,既高效又平滑。具体而言,我们引入了逐步变化规范化,以确保任意输入潜在的变化与输出图像的变化之间的比例在扩散训练的任何步骤中都是恒定的。此外,我们设计了插值标准差 (ISTD) 度量,以有效评估扩散模型的潜在空间平滑性。广泛的定量和定性实验表明,Smooth Diffusion 在 T2I 生成以及其他各种下游任务中都表现出更好的解决方案。Smooth Diffusion 作为一个即插即用的 Smooth-LoRA 与不同的社区模型配合使用。代码可在此 https 的 URL 获取。
Dec, 2023
本文介绍了 Diffusion Hyperfeatures 框架,该框架用于将多尺度和多时间步长的特征图聚合成每像素特征描述符,可以用于图像生成和反推过程,该框架在语义关键点对应任务中表现出优秀的性能,并且具有灵活的可转移性。
May, 2023
基于新型潜在扩散模型结构的人脸生成和编辑的语义图像合成(SIS)框架,通过使用 SPADE 归一化和交叉注意力层合并形状和样式信息,允许对人脸的每个语义部分进行精确控制,从而实现对真实参考图像的重现、操纵和多样化生成的建议系统优于现有的最先进技术,经过广泛的实验验证了其在质量和数量上的优越性。
Mar, 2024