在频域中使用移动平均采样提升扩散模型
提出了一种新颖的基于频域引导的多尺度扩散模型(FDDiff),该模型通过细化的步骤将高频信息的补充过程分解为更精细的步骤,使用小波包频域链提供多尺度的中间目标,以逐步补充缺失的高频细节,并利用多尺度频率细化网络在一个统一的网络中预测所需的多尺度高频成分,通过对流模型在图像超分辨率任务中生成高质量图像,并在广泛的评估中展示了其优于先前的生成方法的结果。
May, 2024
利用新颖的评分匹配损失,我们提出了一种基于粒子迭代方案的粒子去噪扩散取样器(PDDS),它能够在温和假设下提供渐近一致的估计,我们在多模态和高维取样任务上演示了 PDDS。
Feb, 2024
通过提出一种新颖的去随机扩散过程,我们加速了离散扩散模型的算法;我们还引入了一种连续时间采样算法,能够比有限步长的离散时间采样算法提供更好的样本质量。大量实验表明,在自然语言生成和机器翻译任务中,我们的方法在离散扩散模型的生成速度和样本质量方面表现出优越性。
Dec, 2023
我们介绍了一种名为多视角祖先采样(MAS)的方法,用于生成一系列运动的一致的多视角 2D 样本,从而实现其 3D 对应物的创建。MAS 利用仅基于 2D 数据训练的扩散模型,为 3D 数据稀缺且难以收集的运动领域提供了机会。MAS 通过同时去噪不同角度下表示相同运动的多个 2D 运动序列,保证了每个扩散步骤中所有视角的一致性,并将个体生成结果合并为统一的 3D 序列,再投影到原始视角作为下一迭代的输入。我们在包括职业篮球动作、球体器械韵律体操表演和马障碍赛等视频中的 2D 姿势数据上展示了 MAS 的效果。在这些领域中,进行 3D 运动捕捉工作较为困难,然而 MAS 却能生成多样且逼真的 3D 序列,无需文本约束。正如我们展示的,我们基于祖先采样的方法相对于流行的基于优化的去噪方法,在扩散框架中提供了更自然的一体化,避免了常见的问题,如域外采样、缺乏细节和模式坍缩。
Oct, 2023
通过在模型训练过程中加入约束条件使其生成的样本更符合所施加的约束,从而提高生成样本与约束的一致性,且相较于现有方法有更好的性能且不影响推断速度;该方法还可以自然地防止过拟合。
Mar, 2024
利用连续动力系统设计一种新型去噪网络,以提高扩散模型的参数效率、收敛速度和噪声鲁棒性。与基准模型相比,该模型具有约四分之一的参数量和百分之三十的浮点操作数(FLOPs),推理速度提高了 70%,并且收敛到了更好的质量解。
Oct, 2023
本文提出了一种基于多模式条件 GAN,使其具有高样本质量、高模式覆盖和快速采样三个特性的去噪扩散生成对抗网络,同时在 CIFAR-10 数据集上比原扩散模型快 2000 倍,并且是第一种将采样成本降至足够低以便于应用于实际应用的模型。
Dec, 2021