将文本 - 图像模型与人类喜好更好地对齐
本研究引入了人类喜好数据集 v2 (HPD v2) 和人类偏好评分模型 v2 (HPS v2),可更准确地评估基于文本的图像生成模型的质量,并建立了以 HPS v2 为基准的评估标准及基准模型。
Jun, 2023
通过引入偏爱条件模块到 CLIP 模型,我们提出了首个用于评估文本到图像模型的多维度偏好评分模型,称为 Multi-dimensional Preference Score(MPS)。MPS 在我们的 Multi-dimensional Human Preference(MHP)数据集上进行训练,在四个维度(审美、语义一致性、细节质量和整体评估)上获得 918,315 次人类偏好选择,涵盖了 607,541 张由各类最新文本到图像模型生成的图像。MPS 在三个数据集的四个维度上优于现有评分方法,为评估和改进文本到图像生成提供了有希望的指标。
May, 2024
提出一种新的采样设计方法,通过优化噪音分布以满足人类偏好,而不需要微调扩散模型,从而实现高质量的一步图像生成;实验证明,定制的噪音分布显著提高图像质量,并在计算成本仅略微增加的情况下取得了重要的突破,同时凸显了噪音优化的重要性,为高效和高质量的文本到图像合成铺平了道路。
Apr, 2024
利用人类比较数据和强化学习通过 Reinforcement Learning from Human Feedback (RLHF) 方法对大规模语言模型(LLMs)进行微调,以使其更好地与用户偏好相匹配。与 LLMs 相比,文本到图像扩散模型中人类偏好学习的探索较少;目前最佳方法是使用经过精心筛选的高质量图像和标题对预训练模型进行微调,以提高视觉吸引力和文本对齐性。我们提出 Diffusion-DPO 方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。Diffusion-DPO 从最近开发的直接偏好优化(DPO)中进行适应,DPO 是对最佳满足分类目标下人类偏好的策略直接进行优化的更简单的方法。我们重新制定 DPO 以考虑扩散模型的似然概念,利用证据下界导出可微分的目标函数。利用 Pick-a-Pic 数据集中的 851K 个众包成对偏好,我们使用 Diffusion-DPO 对最先进的稳定扩散 XL(SDXL)-1.0 模型的基础模型进行微调。我们微调后的基础模型在人工评估中显著优于基础 SDXL-1.0 模型和额外的改进模型,从而提高了视觉吸引力和提示对齐。我们还开发了一个使用 AI 反馈并具有与基于人类偏好训练相当性能的变体,为扩展扩散模型对齐方法打开了大门。
Nov, 2023
通过使用直接偏好优化(DPO)的人体图像生成方法以及改进的损失函数,本文在人体图像生成领域取得了显著进展,达到了自然解剖结构、姿势和文本 - 图像对齐方面的优越结果。
May, 2024
通过在扩散模型的内嵌空间中优化感知目标,我们提出了一种方法,使用直接偏好优化 (DPO)、对比偏好优化 (CPO) 和监督微调 (SFT) 来显著提高扩散模型的效率和质量,同时降低了计算成本。
Jun, 2024
這篇研究論文探討多模態模型的個性化和適應問題,並使用 Bradley-Terry preference model 開發了一種快速的適應方法,透過少量範例和極少的計算資源有效地微調了原始模型,在多模態文本和圖像理解的不同領域中進行了大量實驗。
Jul, 2023
该研究论文探索将人类中心先验直接整合到模型微调阶段,通过人类中心对齐损失强化文本提示中的人类相关信息,以及通过扩散过程中的比例感知和逐步约束确保语义详细性和人类结构准确性,从而提高了合成基于用户编写提示的高质量人类图像的方法。
Mar, 2024
本文介绍了一种 Fine-Tuning 方法,使用人类反馈对齐文本到图像的 Deep generative model,通过分析设计选择平衡对齐 - 准确性的权衡,最终通过奖励加权似然优化,使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明,利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。
Feb, 2023
我们提出了一种名为 Preference Score(PS)的新型基于学习的评估指标,用于对人类偏好进行定量评估,验证其在与人类感知的一致性、对未见数据的鲁棒性和泛化能力方面的优越性,对推进对话头生成具有重要价值。
Jul, 2023