将文本 - 图像模型与人类喜好更好地对齐

Mar, 2023

将文本 - 图像模型与人类喜好更好地对齐

Better Aligning Text-to-Image Models with Human Preference

Xiaoshi Wu, Keqiang Sun, Feng Zhu, Rui Zhao, Hongsheng Li

TL;DR为了更好地满足人类审美偏好，本文通过引入人类评分获得的数据集和人类偏好分类器，提出了一种简单有效的基于稳定扩散的方法，通过调整生成模型，生成更符合人类审美偏好的图像。

Abstract

Recent years have witnessed a rapid growth of deep generative models, with text-to-image models gaining significant attention from the public. However, existing models often generate images that do not align well

deep generative models text-to-image models human aesthetic preferences human preference classifier stable diffusion

发现论文，激发创造

人类喜好评分 v2：用于评估文本到图像合成的人类喜好的可靠基准

本研究引入了人类喜好数据集 v2 (HPD v2) 和人类偏好评分模型 v2 (HPS v2)，可更准确地评估基于文本的图像生成模型的质量，并建立了以 HPS v2 为基准的评估标准及基准模型。

Jun, 2023

学习多维人类偏好的文本到图像生成

通过引入偏爱条件模块到 CLIP 模型，我们提出了首个用于评估文本到图像模型的多维度偏好评分模型，称为 Multi-dimensional Preference Score（MPS）。MPS 在我们的 Multi-dimensional Human Preference（MHP）数据集上进行训练，在四个维度（审美、语义一致性、细节质量和整体评估）上获得 918,315 次人类偏好选择，涵盖了 607,541 张由各类最新文本到图像模型生成的图像。MPS 在三个数据集的四个维度上优于现有评分方法，为评估和改进文本到图像生成提供了有希望的指标。

May, 2024

扩散模型中与模型无关的人类偏好反转

提出一种新的采样设计方法，通过优化噪音分布以满足人类偏好，而不需要微调扩散模型，从而实现高质量的一步图像生成；实验证明，定制的噪音分布显著提高图像质量，并在计算成本仅略微增加的情况下取得了重要的突破，同时凸显了噪音优化的重要性，为高效和高质量的文本到图像合成铺平了道路。

Apr, 2024

直接偏好优化的扩散模型对齐

利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型（LLMs）进行微调，以使其更好地与用户偏好相匹配。与 LLMs 相比，文本到图像扩散模型中人类偏好学习的探索较少；目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调，以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法，通过在人类比较数据上进行直接优化，使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化（DPO）中进行适应，DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念，利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好，我们使用 Diffusion-DPO 对最先进的稳定扩散 XL（SDXL）-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型，从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体，为扩展扩散模型对齐方法打开了大门。

Nov, 2023

通过 AI 反馈直接偏好优化提升您自己的人像生成模型

通过使用直接偏好优化（DPO）的人体图像生成方法以及改进的损失函数，本文在人体图像生成领域取得了显著进展，达到了自然解剖结构、姿势和文本 - 图像对齐方面的优越结果。

May, 2024

用噪声条件化感知调整扩散模型

通过在扩散模型的内嵌空间中优化感知目标，我们提出了一种方法，使用直接偏好优化 (DPO)、对比偏好优化 (CPO) 和监督微调 (SFT) 来显著提高扩散模型的效率和质量，同时降低了计算成本。

Jun, 2024

文本到图像分类和生成中的快速适应性与 Bradley-Terry 偏好模型

這篇研究論文探討多模態模型的個性化和適應問題，並使用 Bradley-Terry preference model 開發了一種快速的適應方法，透過少量範例和極少的計算資源有效地微調了原始模型，在多模態文本和圖像理解的不同領域中進行了大量實驗。

Jul, 2023

文本为基础的人类图像生成中人本先验在扩散模型中的有效应用

该研究论文探索将人类中心先验直接整合到模型微调阶段，通过人类中心对齐损失强化文本提示中的人类相关信息，以及通过扩散过程中的比例感知和逐步约束确保语义详细性和人类结构准确性，从而提高了合成基于用户编写提示的高质量人类图像的方法。

Mar, 2024

利用人类反馈对齐文本与图像模型

本文介绍了一种 Fine-Tuning 方法，使用人类反馈对齐文本到图像的 Deep generative model，通过分析设计选择平衡对齐 - 准确性的权衡，最终通过奖励加权似然优化，使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明，利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。

Feb, 2023

学习和评估人类对话头生成的偏好

我们提出了一种名为 Preference Score（PS）的新型基于学习的评估指标，用于对人类偏好进行定量评估，验证其在与人类感知的一致性、对未见数据的鲁棒性和泛化能力方面的优越性，对推进对话头生成具有重要价值。

Jul, 2023