潜在扩散模型的像素空间后训练

Sep, 2024

Pixel-Space Post-Training of Latent Diffusion Models

Christina Zhang, Simran Motwani, Matthew Yu, Ji Hou, Felix Juefei-Xu...

TL;DR本文针对潜在扩散模型在生成高频细节和复杂构图方面的不足提出了一种解决方案，强调在后训练过程中引入像素空间监督。实验表明，这种新方法显著提升了生成图像的视觉质量和指标表现，同时保持了文本对齐的质量。

Abstract

Latent Diffusion Models (LDMs) have made significant advancements in the field of Image Generation in recent years. One major advantage of LDMs is their ability to operate in a compressed latent space, allowing f

发现论文，激发创造

使用潜在扩散模型进行高分辨率图像合成

通过在预训练的自编码器的潜在空间中应用扩散模型，引入交叉注意力层到模型体系结构中，以更少的计算要求取得接近最优的性能，实现高分辨率合成，缩小像素级DMs对计算资源的需求。

Dec, 2021

使用潜变量扩散模型进行高分辨率视频合成的对齐

该研究将LDM范例应用于高分辨率视频生成中，利用图像生成器实现视频生成，利用时间维度对视频超分辨率模型进行精细调整，验证其在真实驾驶视频上的表现，且可将LDM应用于文本到视频模型中。

Apr, 2023

SDXL：提高高分辨率图像合成的潜在扩散模型

SDXL 是一种潜在扩散模型，用于文本到图像的合成，其使用更大的 UNet 骨干网络以及多重新颖的调制方式和改进模型，且其结果竞争力与黑箱最先进的图像生成器相比具有显著提高。

Jul, 2023

稳定的视频扩散：将潜在视频扩散模型扩展到大型数据集

我们提出了稳定的视频扩散-一种用于高分辨率的文本到视频和图像到视频生成的潜在视频扩散模型。

Nov, 2023

AP-LDM：注意力和渐进性潜在扩散模型，用于无训练的高分辨率图像生成

本研究解决了现有潜在扩散模型在生成高分辨率图像时质量和效率不足的问题。提出的注意力和渐进性潜在扩散模型（AP-LDM）通过分阶段的去噪过程显著提高图像质量，并加快生成速度。实验表明，AP-LDM在高分辨率图像生成方面比当前最先进方法快5倍，具有重要的实际应用价值。

Oct, 2024

扩散模型需要视觉先验进行图像生成

本研究解决了传统类引导扩散模型在细节纹理生成上的不足，指出依赖粗略的类先验信息限制了模型性能。提出的“扩散上的扩散”（DoD）框架通过从先前生成的样本中提取视觉先验，提供丰富的引导信息，显著降低训练成本，同时提升生成图像的质量和细节。研究结果表明，DoD-XL模型在有限的训练步骤下，获得的FID-50K评分显著优于其他最先进的方法。

Oct, 2024

稳定图像自回归建模的潜在空间：统一视角

本研究解决了自回归模型在图像生成任务中的不足，提出了一种统一的观点，强调潜在空间在图像生成建模中的稳定性。通过引入一种有效的离散图像标记器，我们实现了首个在图像生成上超越LDM的GPT风格自回归模型，展示了优化潜在空间和离散标记化对提升图像生成模型能力的潜力。

Oct, 2024

更简单的扩散模型 (SiD2)：在ImageNet512上实现1.5 FID的像素空间扩散

本研究针对潜在扩散模型在高分辨率图像合成中的广泛应用，提出了像素空间模型在质量和效率上也非常具有竞争力的观点。通过简单的三步法，我们提出了一种新的像素空间扩散模型SiD2，达到ImageNet512上1.5 FID的卓越成果，推动了高分辨率图像处理的进展。

Oct, 2024

改进扩散模型的条件机制和预训练策略

本研究针对现有扩散模型（LDMs）训练过程中的关键组件缺失问题，系统性地重新实现了五种已发表模型，旨在进行有效的比较及验证。我们提出了一种新的条件机制，能够更好地解耦语义信息和控制元数据，从而在ImageNet-1k和CC12M数据集上的图像生成任务中显著提高了模型性能。

Nov, 2024

通过感知目标提升潜在扩散

本研究针对潜在扩散模型在生成图像过程中因模型训练与解码器之间的脱节导致细节损失的问题，提出了一种新的潜在感知损失方法，旨在提高生成图像的细节和真实感。通过将内部特征与常见自编码器结合，实验结果表明，使用此感知损失后，模型在多个数据集上展示了显著的量化和质量提升。

Nov, 2024