二元潜在扩散
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级DMs对计算资源的需求。
Dec, 2021
SDXL 是一种潜在扩散模型,用于文本到图像的合成,其使用更大的 UNet 骨干网络以及多重新颖的调制方式和改进模型,且其结果竞争力与黑箱最先进的图像生成器相比具有显著提高。
Jul, 2023
通过概率质量函数的概念,结合量化处理,我们引入了一种新颖的后训练采样算法,该算法可以从生成模型的潜在空间中取样,使得重建的样本更接近真实图像。我们的方法在速度上大大提高了运行效率,性能优于基于高斯混合模型的采样技术,并在一系列模型和数据集上展现了显著的改进。我们还证实了我们的方法在估算潜在空间分布方面的有效性,相比于高斯混合模型的采样技术,特别是通过Wasserstein距离的比较。
Aug, 2023
该研究提出了一种内容-动态潜在扩散模型 (CMD),它是针对视频生成的预训练图像扩散模型的一种高效扩展。CMD通过使用预训练图像扩散模型生成内容帧和训练轻量级扩散模型生成动态潜在表征,实现了更高质量的视频生成和降低的计算成本。
Mar, 2024
通过引入离散潜变量,我们提出了一种简化数据编码的方法,DisCo-Diff模型,它不依赖于预训练网络,并且在玩具数据、图像合成任务和分子对接等多个领域中验证了其改进模型性能的能力。
Jul, 2024
使用等距扩散进行几何规则化,使扩散模型学习到一个几何上完整的训练数据流形的潜空间,实现了更加解耦的潜空间、更平滑的插值、更准确的反演以及对潜空间中属性的更精确控制。
Jul, 2024
本文针对潜在扩散模型在生成高频细节和复杂构图方面的不足提出了一种解决方案,强调在后训练过程中引入像素空间监督。实验表明,这种新方法显著提升了生成图像的视觉质量和指标表现,同时保持了文本对齐的质量。
Sep, 2024
本研究解决了传统类引导扩散模型在细节纹理生成上的不足,指出依赖粗略的类先验信息限制了模型性能。提出的“扩散上的扩散”(DoD)框架通过从先前生成的样本中提取视觉先验,提供丰富的引导信息,显著降低训练成本,同时提升生成图像的质量和细节。研究结果表明,DoD-XL模型在有限的训练步骤下,获得的FID-50K评分显著优于其他最先进的方法。
Oct, 2024
本研究解决了自回归模型在图像生成任务中的不足,提出了一种统一的观点,强调潜在空间在图像生成建模中的稳定性。通过引入一种有效的离散图像标记器,我们实现了首个在图像生成上超越LDM的GPT风格自回归模型,展示了优化潜在空间和离散标记化对提升图像生成模型能力的潜力。
Oct, 2024
本研究针对潜在扩散模型在高分辨率图像合成中的广泛应用,提出了像素空间模型在质量和效率上也非常具有竞争力的观点。通过简单的三步法,我们提出了一种新的像素空间扩散模型SiD2,达到ImageNet512上1.5 FID的卓越成果,推动了高分辨率图像处理的进展。
Oct, 2024