潜在扩散模型的像素空间后训练
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级DMs对计算资源的需求。
Dec, 2021
该研究将LDM范例应用于高分辨率视频生成中,利用图像生成器实现视频生成,利用时间维度对视频超分辨率模型进行精细调整,验证其在真实驾驶视频上的表现,且可将LDM应用于文本到视频模型中。
Apr, 2023
SDXL 是一种潜在扩散模型,用于文本到图像的合成,其使用更大的 UNet 骨干网络以及多重新颖的调制方式和改进模型,且其结果竞争力与黑箱最先进的图像生成器相比具有显著提高。
Jul, 2023
本研究解决了现有潜在扩散模型在生成高分辨率图像时质量和效率不足的问题。提出的注意力和渐进性潜在扩散模型(AP-LDM)通过分阶段的去噪过程显著提高图像质量,并加快生成速度。实验表明,AP-LDM在高分辨率图像生成方面比当前最先进方法快5倍,具有重要的实际应用价值。
Oct, 2024
本研究解决了传统类引导扩散模型在细节纹理生成上的不足,指出依赖粗略的类先验信息限制了模型性能。提出的“扩散上的扩散”(DoD)框架通过从先前生成的样本中提取视觉先验,提供丰富的引导信息,显著降低训练成本,同时提升生成图像的质量和细节。研究结果表明,DoD-XL模型在有限的训练步骤下,获得的FID-50K评分显著优于其他最先进的方法。
Oct, 2024
本研究解决了自回归模型在图像生成任务中的不足,提出了一种统一的观点,强调潜在空间在图像生成建模中的稳定性。通过引入一种有效的离散图像标记器,我们实现了首个在图像生成上超越LDM的GPT风格自回归模型,展示了优化潜在空间和离散标记化对提升图像生成模型能力的潜力。
Oct, 2024
本研究针对潜在扩散模型在高分辨率图像合成中的广泛应用,提出了像素空间模型在质量和效率上也非常具有竞争力的观点。通过简单的三步法,我们提出了一种新的像素空间扩散模型SiD2,达到ImageNet512上1.5 FID的卓越成果,推动了高分辨率图像处理的进展。
Oct, 2024
本研究针对现有扩散模型(LDMs)训练过程中的关键组件缺失问题,系统性地重新实现了五种已发表模型,旨在进行有效的比较及验证。我们提出了一种新的条件机制,能够更好地解耦语义信息和控制元数据,从而在ImageNet-1k和CC12M数据集上的图像生成任务中显著提高了模型性能。
Nov, 2024
本研究针对潜在扩散模型在生成图像过程中因模型训练与解码器之间的脱节导致细节损失的问题,提出了一种新的潜在感知损失方法,旨在提高生成图像的细节和真实感。通过将内部特征与常见自编码器结合,实验结果表明,使用此感知损失后,模型在多个数据集上展示了显著的量化和质量提升。
Nov, 2024