通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级DMs对计算资源的需求。
Dec, 2021
该研究提出了一种基于扩散的生成模型,通过设计针对迭代生成过程的特殊模型,实现了更好的文本对齐,利用不同嵌入技术对模型进行调整,实现对参考图像风格进行自适应转换,并展示了一种“文字涂鸦”的技术,可帮助用户控制所需的图像输出。
Nov, 2022
本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用;此外,介绍了文本条件下图像合成、文本引导的创意生成和图像编辑,并探讨了当前的挑战和未来方向。
Mar, 2023
该研究将LDM范例应用于高分辨率视频生成中,利用图像生成器实现视频生成,利用时间维度对视频超分辨率模型进行精细调整,验证其在真实驾驶视频上的表现,且可将LDM应用于文本到视频模型中。
Apr, 2023
PIXART-$\alpha$, a Transformer-based T2I diffusion model, achieves high-quality image synthesis at low training cost, surpassing existing models in training speed and reducing CO2 emissions.
Sep, 2023
PanGu-Draw是一种资源高效的潜在扩散模型,通过时间解耦训练策略和合作扩散算法,实现了高效的文本到图像合成和多控制图像生成。
Dec, 2023
通过降低模型大小和知识蒸馏,我们引入了两种简化的Stable Diffusion XL模型(SSD-1B和Segmind-Vega),并证明了在保持高质量生成能力的同时减少模型大小的有效性。
Jan, 2024
通过模型微型化、减少采样步骤和知识蒸馏的双重方法,减小模型延迟,本研究提出了一种在图像生成领域优化扩散模型性能的方法。通过简化U-Net和图像解码器的结构并引入一步式DM训练技术,利用特征匹配和得分蒸馏,我们实现了两个模型SDXS-512和SDXS-1024,在单个GPU上实现了约100帧每秒(比SD v1.5快30倍)和30帧每秒(比SDXL快60倍)的推理速度。此外,我们的训练方法还在图像条件控制方面具有潜在的应用,可以实现高效的图像转换。
Mar, 2024
现有大规模扩散模型受限于生成1K分辨率图像,本文提出基于渐进方法的创新研究,在不增加额外训练成本的情况下,利用低分辨率图像辅助生成高分辨率图像,实现了对生成模型超越原有能力的探索和验证。
Jun, 2024
本研究解决了传统类引导扩散模型在细节纹理生成上的不足,指出依赖粗略的类先验信息限制了模型性能。提出的“扩散上的扩散”(DoD)框架通过从先前生成的样本中提取视觉先验,提供丰富的引导信息,显著降低训练成本,同时提升生成图像的质量和细节。研究结果表明,DoD-XL模型在有限的训练步骤下,获得的FID-50K评分显著优于其他最先进的方法。
Oct, 2024