学习多维人类偏好的文本到图像生成

May, 2024

学习多维人类偏好的文本到图像生成

Learning Multi-dimensional Human Preference for Text-to-Image Generation

Sixian Zhang, Bohan Wang, Junqiang Wu, Yan Li, Tingting Gao...

TL;DR通过引入偏爱条件模块到 CLIP 模型，我们提出了首个用于评估文本到图像模型的多维度偏好评分模型，称为 Multi-dimensional Preference Score（MPS）。MPS 在我们的 Multi-dimensional Human Preference（MHP）数据集上进行训练，在四个维度（审美、语义一致性、细节质量和整体评估）上获得 918,315 次人类偏好选择，涵盖了 607,541 张由各类最新文本到图像模型生成的图像。MPS 在三个数据集的四个维度上优于现有评分方法，为评估和改进文本到图像生成提供了有希望的指标。

Abstract

Current metrics for text-to-image models typically rely on statistical metrics which inadequately represent the real preference of humans. Although recent work attempts to learn these preferences via human annotated images, they reduce the rich tapestry of human preference to a single

text-to-image models human preferences multi-dimensional preference score clip model mhp dataset

发现论文，激发创造

人类喜好评分 v2：用于评估文本到图像合成的人类喜好的可靠基准

本研究引入了人类喜好数据集 v2 (HPD v2) 和人类偏好评分模型 v2 (HPS v2)，可更准确地评估基于文本的图像生成模型的质量，并建立了以 HPS v2 为基准的评估标准及基准模型。

Jun, 2023

将文本 - 图像模型与人类喜好更好地对齐

为了更好地满足人类审美偏好，本文通过引入人类评分获得的数据集和人类偏好分类器，提出了一种简单有效的基于稳定扩散的方法，通过调整生成模型，生成更符合人类审美偏好的图像。

Mar, 2023

多模态大语言模型是文本到图像生成的人类对齐标注器

通过利用多模态大型语言模型创建 VisionPrefer，我们构建了一个高质量和细粒度的用户偏好数据集，用于指导文本到图像生成模型的训练，该数据集在多个偏好方面捕捉了人类的喜好，并且其性能优于之前的人类偏好度量标准，并证明了将人工智能生成的合成数据作为监督信号集成到视觉生成模型中，是实现与人类偏好更好的对齐的一个有前途的途径。

Apr, 2024

学习和评估人类对话头生成的偏好

我们提出了一种名为 Preference Score（PS）的新型基于学习的评估指标，用于对人类偏好进行定量评估，验证其在与人类感知的一致性、对未见数据的鲁棒性和泛化能力方面的优越性，对推进对话头生成具有重要价值。

Jul, 2023

ImageReward: 学习和评估人类对文本到图像生成的偏好

本文介绍了 ImageReward，第一个通用的文本到图像人类偏好奖励模型，通过系统注释流程，其训练基于涵盖评级和排名组件的数据集，包括 137k 个专家比较。在人类评估中，ImageReward 超越了现有的评分方法（例如 CLIP），成为评估和改进文本到图像合成的有前途的自动度量标准。该奖励模型可通过 exttt {image-reward} 包在 https://github.com/THUDM/ImageReward 上公开获得。

Apr, 2023

Pick-a-Pic: 一种用户文本到图像生成偏好的开放数据集

通过创建一个网络应用程序，我们制作了 Pick-a-Pic 数据集，以收集来自文本到图像用户的大规模偏好数据。使用该数据集，我们训练了一种基于 CLIP 的评分函数 PickScore，并证明其在预测人类偏好方面具有超人级的性能。因此，我们建议将 PickScore 用于评估未来的文本到图像生成模型，并使用 Pick-a-Pic 提示作为比 MS-COCO 更相关的数据集。最后，我们演示了如何通过排名来提高现有的文本到图像模型。

May, 2023

通过 AI 反馈直接偏好优化提升您自己的人像生成模型

通过使用直接偏好优化（DPO）的人体图像生成方法以及改进的损失函数，本文在人体图像生成领域取得了显著进展，达到了自然解剖结构、姿势和文本 - 图像对齐方面的优越结果。

May, 2024

Polos: 从人类反馈中进行多模态度量学习用于图像字幕生成

提出了一种基于人类反馈训练的 Polos 的自动评估度量标准用于图像字幕模型，该度量标准从多模态输入中计算得分，利用通过大规模对比学习训练的嵌入进行平行特征提取机制。通过在 Polis 数据集上取得的最新成果，证明了该方法具有效果和鲁棒性。

Feb, 2024

多任务基准测试中文本至图像模型的人类评估

我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了 3,600 个评分。

Nov, 2022

LLMScore：揭示大型语言模型在文本到图像合成评估中的优势

LLMScore 利用大语言模型为文本到图像合成模型提供带有多层次的组成性评估得分，并且与通常使用的文本 - 图像匹配度量相比，其与人类评估之间的相关性显著更高。

May, 2023