多步骤一致性模型
一步采样的连贯性模型在训练阶段中具有良好的实证效果,通过训练一系列连贯性函数,能够将扩散过程的任何时间步骤的任意点映射到其起始点,其理论基础表明,为了生成与目标分布在 ε 接近程度内的样本,连贯性学习的步骤数应超过 d^5/2/ε,其中 d 为数据维度,这一理论为连贯性模型的有效性和实用性提供了深入洞察,从而启示其在下游推理任务中的实用性。
Feb, 2024
一步法生成模型中的一种家族为一次生成高质量数据提供了新的方法,通过改进的一致性训练技术,该研究提出了克服预训练模型局限性以及避免评估偏差的方法,并在 CIFAR-10 和 ImageNet 数据集上表现出了显著的改进。
Oct, 2023
本文提出了一种统计理论,将一致性模型的训练视为分布差异最小化问题,并通过使用 Wasserstein 距离,导出了与传统扩散模型相匹配的一致性模型的统计估计速率,同时揭示了一致性模型通过蒸馏和隔离方法进行训练的优势。
Jun, 2024
将大型潜在扩散模型(LDMs)提炼为快速采样模型是一个备受关注的研究领域,本文通过扩展最新的多步一致性提炼(MCD)策略,建立了用于低成本高质量图像合成的多步潜在一致性模型(MLCM)。MLCM 通过与强调联合段一致性的渐进训练策略相结合,能够提高少步骤生成的质量。实验结果表明,MLCM 仅需 2-8 个采样步骤即可产生高质量、令人愉悦的图像,比 4 步骤的 LCM、8 步骤的 SDXL-Lightning 和 8 步骤的 HyperSD 显著优越;此外,MLCM 还在可控生成、图像风格转移和中文到图像生成等方面展示了其多功能性。
Jun, 2024
通过集成随机微分方程求解器到一致性蒸馏中,提出并验证了 Stochastic Consistency Distillation (SCott) 方法,该方法能够加快文本到图像生成的过程,并且在稳定扩散 - V1.5 模型上,表现优于其他模型在 MSCOCO-2017 5K 数据集上的生成结果。
Mar, 2024
通过应用可逆一致性蒸馏 (invertible Consistency Distillation, iCD) 框架,实现了在少于 4 个推理步骤中高质量图像合成和准确图像编码的目标,使得具有动态引导的 iCD 成为零样本文本引导图像编辑的高效工具。
Jun, 2024
我们提出了一种新的方法,通过匹配沿采样轨迹给定噪声数据的干净数据的条件期望来将扩散模型加速采样,从而将多步扩散模型提炼为少步模型。我们的方法扩展了最近提出的一步方法到多步情况,并通过以矩匹配的方式解释这些方法,从而提供了一种新的视角。通过使用多达 8 个采样步骤,我们获得的提炼模型不仅在 Imagnet 数据集上超越了其一步版本,还超越了原始的多步教师模型,获得了最新的最先进结果。我们还展示了一种大型文本到图像模型的有希望结果,在该模型中,我们可以直接在图像空间中快速生成高分辨率图像,而无需自编码器或上采样器。
Jun, 2024
通过新的参数化方法和扩散模型的渐进提炼过程,从而在不降低感知质量的前提下将采样步骤尽量减少到四步,从而提高了采样效率,并为生成建模提供了高效的解决方案。
Feb, 2022
本文提出了一种基于一致性模型的语音合成方法 CoMoSpeech,采用单一扩散采样步骤实现语音合成。实验表明,CoMoSpeech 的推理速度比现实时间快 150 倍以上,并且在文本转语音和歌唱声音合成方面具有最佳音频质量。
May, 2023