具有感知损失的扩散模型

Dec, 2023

Diffusion Model with Perceptual Loss

Shanchuan Lin, Xiao Yang

TL;DR通过引入自我知觉目标，将扩散模型训练中使用的有噪自动编码器目标与无监督感知网络训练中使用的去噪自动编码器目标关联，我们提出了一种新的扩散模型，可以生成更真实的样本，而不会牺牲样本多样性。

Abstract

diffusion models trained with mean squared error loss tend to generate unrealistic samples. Current state-of-the-art models rely on classifier-free guidance to improve sample quality, yet its surprising effective

diffusion models classifier-free guidance perceptual loss sample quality self-perceptual objective

发现论文，激发创造

感知优先的弥散模型训练

本文研究了扩散模型学习以优化对应丢失函数的加权和（去噪得分匹配损失）来恢复不同噪声水平的嘈杂数据，并提出了恢复受特定噪声水平损坏的数据作为学习丰富视觉概念的适当预先任务的方法，通过重新设计目标函数的加权方案，在训练过程中优先考虑这些噪声水平，我们证明了我们简单的加权方案重构可以显著提高扩散模型的性能。

Apr, 2022

弥合差距：解决分类器自由引导的扩散模型训练中的不一致性

为了解决传统训练方法与生成模型的条件抽样行为之间的差异，本文介绍了一种更新的损失函数，通过改进训练目标与抽样行为的一致性来提高样本质量，并对不同的引导比例进行了实验验证。

Nov, 2023

DetDiffusion：将生成模型和感知模型协同工作以提升数据生成和感知能力

当前的感知模型依赖于资源密集型的数据集，因此需要创新性的解决方案。通过利用扩散模型和合成数据，通过从各种注释中构建图像输入，有助于下游任务。DetDiffusion 首次统一了生成模型和感知模型，解决了为感知模型生成有效数据的挑战。为了增强感知模型的图像生成能力，我们引入了感知感知损失（P.A. 损失），通过分割改善图像的质量和可控性。为了提高特定感知模型的性能，我们的方法在生成过程中提取和利用感知感知属性（P.A. 属性）进行自定义数据增强。目标检测任务的实验结果突出了 DetDiffusion 卓越的性能，在布局引导生成方面建立了新的最先进技术水平。此外，DetDiffusion 生成的图像合成能够有效增强训练数据，显著提高下游检测性能。

Mar, 2024

物理相关扩散模型

通过在模型训练过程中加入约束条件使其生成的样本更符合所施加的约束，从而提高生成样本与约束的一致性，且相较于现有方法有更好的性能且不影响推断速度；该方法还可以自然地防止过拟合。

Mar, 2024

去偏扩散模型的训练

通过理论支持，本文提出一种优雅而有效的加权策略，解决了扩散模型中常数加权策略带来的估计偏差问题。并通过实证评估表明，提出的去偏估计方法在样本质量、训练效率和采样效率方面均显著优于基准方法。

Oct, 2023

扩散模型的梯度引导：优化视角

通过梯度引导实现扩散模型的细调，以用户定义的优化目标适应特定任务需求，包括理论研究、梯度引导的采样过程和梯度引导的迭代扩散，以及潜在结构的保留和全局最优解的收敛速率。

Apr, 2024

关于引导式扩散模型的精馏

本文介绍了一种将分类器自由引导扩散模型蒸馏为更快采样的方法，以减少推理时间，并取得了与原始模型相当的图像有效性。

Oct, 2022

利用有损扩散模型增强图像布局控制

扩散模型为一种强大的生成模型，能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容，然而，仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制，而这取决于初始噪声分布。本文探讨了两种改进方法，并演示了当这两种方法结合使用时可以获得更好的性能。

May, 2024

以自身的错误版本引导扩散模型

使用自身较小、较少训练的模型而不是无条件模型，引导生成图像，可以获得图像质量分离的控制，同时不减少变化量。这在 ImageNet 生成方面有显著的改进，64x64 像素的 FID 为 1.01，512x512 像素的 FID 为 1.25，使用公开可用的网络。此方法还适用于无条件扩散模型，大幅提高它们的质量。

Jun, 2024

使用引导扩散模型编辑真实图像的知觉相似性引导与文本引导优化

使用扩散模型进行图像编辑时，我们采用了双向引导的方法来保持未改变区域与原图的高度保真度。首先，我们使用文本嵌入来指导潜空间，并使用无分类器的引导进行优化。其次，我们使用感知相似性引导，在反向过程中通过 Tweedie 公式进行后验采样来优化潜空间向量。此方法既可以保证对编辑元素进行逼真渲染，又可以保护原图未编辑部分的完整性。

Dec, 2023