EdgeFusion:设备端文本到图像生成
利用潜在一致性模型(LCMs)解决迭代抽样过程在高分辨率图像合成中的计算负担和生成速度慢的问题,LCMs 通过直接预测导引反向扩散过程的 ODE 解决方案在潜空间中,实现了快速、高保真度的采样。
Oct, 2023
通过引入去块知识蒸馏稳定扩散模型(BK-SDMs)的传统架构压缩技术,从而使其可用于通用 T2I 合成,我们从 SDMs 的 U-Net 中消除了几个残差和注意块,显著地减少了参数数量、MACs 和延迟,使用少量的资源进行蒸馏式预训练,使我们的紧凑模型能够模仿原始 SDM,并在零样本 MS-COCO 基准测试中对抗更大的多十亿参数模型,同时还演示了我们轻量级预训练模型在个性化生成中的适用性。
May, 2023
该研究通过引入高效网络架构和步骤蒸馏等技术,提出了一种通用的方法,首次实现在移动设备上以不到 2 秒的速度运行文本到图像扩散模型。该模型可以使用户自己创作图像,而不需要高端 GPU 或云端推理,这将在内容创作方面具有重要作用。
Jun, 2023
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
通过应用可逆一致性蒸馏 (invertible Consistency Distillation, iCD) 框架,实现了在少于 4 个推理步骤中高质量图像合成和准确图像编码的目标,使得具有动态引导的 iCD 成为零样本文本引导图像编辑的高效工具。
Jun, 2024
通过增加 Trajectory Consistency Distillation(TCD)的一组函数和策略性的随机采样的设计,可以显著提高图像生成质量,同时减少由多步一致性采样中积累的误差所致的细节不足,并且在较高的 NFEs 下相较于教师模型更加详细。
Feb, 2024
将大型潜在扩散模型(LDMs)提炼为快速采样模型是一个备受关注的研究领域,本文通过扩展最新的多步一致性提炼(MCD)策略,建立了用于低成本高质量图像合成的多步潜在一致性模型(MLCM)。MLCM 通过与强调联合段一致性的渐进训练策略相结合,能够提高少步骤生成的质量。实验结果表明,MLCM 仅需 2-8 个采样步骤即可产生高质量、令人愉悦的图像,比 4 步骤的 LCM、8 步骤的 SDXL-Lightning 和 8 步骤的 HyperSD 显著优越;此外,MLCM 还在可控生成、图像风格转移和中文到图像生成等方面展示了其多功能性。
Jun, 2024
该研究论文介绍了一种名为近似缓存的技术,通过重用在先前图像生成中创建的中间噪声状态来减少迭代去噪步骤,从而降低基于提示的图像生成的计算和延迟,提供高品质图像生成的最优化解决方案。
Dec, 2023
通过集成随机微分方程求解器到一致性蒸馏中,提出并验证了 Stochastic Consistency Distillation (SCott) 方法,该方法能够加快文本到图像生成的过程,并且在稳定扩散 - V1.5 模型上,表现优于其他模型在 MSCOCO-2017 5K 数据集上的生成结果。
Mar, 2024
通过模型架构调整、冗余剪枝、全局 - 局部交互注意机制和语义感知监督等方法,本研究提出了一种有效训练轻量级模型、并在有限资源下提高模型速度的方法。
Dec, 2023