扩散模型中与模型无关的人类偏好反转

Apr, 2024

扩散模型中与模型无关的人类偏好反转

Model-Agnostic Human Preference Inversion in Diffusion Models

Jeeyung Kim, Ze Wang, Qiang Qiu

TL;DR提出一种新的采样设计方法，通过优化噪音分布以满足人类偏好，而不需要微调扩散模型，从而实现高质量的一步图像生成；实验证明，定制的噪音分布显著提高图像质量，并在计算成本仅略微增加的情况下取得了重要的突破，同时凸显了噪音优化的重要性，为高效和高质量的文本到图像合成铺平了道路。

Abstract

Efficient text-to-image generation remains a challenging task due to the high computational costs associated with the multi-step sampling in diffusion models. Although distillation of pre-trained diffusion models

text-to-image generation diffusion models sampling design prior noise distribution image quality

发现论文，激发创造

HiPA: 通过高频率推广适应实现一步式文本到图像扩散模型

高频率促进适应（HiPA）是一种参数高效的方法，通过训练一步、低秩适配器来增强先进扩散模型中高频率能力的不足，使其能够在单一步骤中生成高质量图像。与渐进蒸馏相比，HiPA 在一步文本到图像生成中具有更好的性能（FID-5k 在 MS-COCO 2017 上从 37.3 降至 23.8），并具有 28.6 倍的训练加速（108.8 到 3.8 A100 GPU 天），仅需要 0.04％的训练参数（77.4 亿降至 330 万）。

Nov, 2023

文本为基础的人类图像生成中人本先验在扩散模型中的有效应用

该研究论文探索将人类中心先验直接整合到模型微调阶段，通过人类中心对齐损失强化文本提示中的人类相关信息，以及通过扩散过程中的比例感知和逐步约束确保语义详细性和人类结构准确性，从而提高了合成基于用户编写提示的高质量人类图像的方法。

Mar, 2024

将文本 - 图像模型与人类喜好更好地对齐

为了更好地满足人类审美偏好，本文通过引入人类评分获得的数据集和人类偏好分类器，提出了一种简单有效的基于稳定扩散的方法，通过调整生成模型，生成更符合人类审美偏好的图像。

Mar, 2023

通过 AI 反馈直接偏好优化提升您自己的人像生成模型

通过使用直接偏好优化（DPO）的人体图像生成方法以及改进的损失函数，本文在人体图像生成领域取得了显著进展，达到了自然解剖结构、姿势和文本 - 图像对齐方面的优越结果。

May, 2024

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

用噪声条件化感知调整扩散模型

通过在扩散模型的内嵌空间中优化感知目标，我们提出了一种方法，使用直接偏好优化 (DPO)、对比偏好优化 (CPO) 和监督微调 (SFT) 来显著提高扩散模型的效率和质量，同时降低了计算成本。

Jun, 2024

直接偏好优化的扩散模型对齐

利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型（LLMs）进行微调，以使其更好地与用户偏好相匹配。与 LLMs 相比，文本到图像扩散模型中人类偏好学习的探索较少；目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调，以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法，通过在人类比较数据上进行直接优化，使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化（DPO）中进行适应，DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念，利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好，我们使用 Diffusion-DPO 对最先进的稳定扩散 XL（SDXL）-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型，从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体，为扩展扩散模型对齐方法打开了大门。

Nov, 2023

条件扩散蒸馏

通过图像条件实现的一种新颖的有条件蒸馏方法，将扩散模型的先验知识与图像条件相结合，大大简化了以往两阶段的蒸馏过程，并通过少量的额外参数和冻结的无条件主干网络实现了一种新的高效蒸馏机制，实验结果表明，该方法在多个任务上的表现优于现有的人工蒸馏技术，并且是第一个能够与更慢的精细调优有条件扩散模型相匹配的蒸馏策略。

Oct, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

GenzIQA：使用提示引导的潜在扩散模型进行通用图像质量评估

通过理解可学习的质量感知文本提示与图像之间的对齐程度，我们利用潜在扩散模型的降噪过程对广义图像质量评估进行了改进。

Jun, 2024