Pick-a-Pic: 一种用户文本到图像生成偏好的开放数据集

May, 2023

Pick-a-Pic: 一种用户文本到图像生成偏好的开放数据集

Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation

Yuval Kirstain, Adam Polyak, Uriel Singer, Shahbuland Matiana, Joe Penna...

TL;DR通过创建一个网络应用程序，我们制作了 Pick-a-Pic 数据集，以收集来自文本到图像用户的大规模偏好数据。使用该数据集，我们训练了一种基于 CLIP 的评分函数 PickScore，并证明其在预测人类偏好方面具有超人级的性能。因此，我们建议将 PickScore 用于评估未来的文本到图像生成模型，并使用 Pick-a-Pic 提示作为比 MS-COCO 更相关的数据集。最后，我们演示了如何通过排名来提高现有的文本到图像模型。

Abstract

The ability to collect a large dataset of human preferences from text-to-image users is usually limited to companies, making such datasets inaccessible to the public. To address this issue, we create a web app th

text-to-image dataset clip pickscore model evaluation

发现论文，激发创造

人类喜好评分 v2：用于评估文本到图像合成的人类喜好的可靠基准

本研究引入了人类喜好数据集 v2 (HPD v2) 和人类偏好评分模型 v2 (HPS v2)，可更准确地评估基于文本的图像生成模型的质量，并建立了以 HPS v2 为基准的评估标准及基准模型。

Jun, 2023

PQPP: 文本到图像提示和查询性能预测的联合基准

基于人工判断，我们引入了第一个在图像生成性能方面手动标注的提示数据集，并且在图像检索中收集了手动标注的检索结果，从而确定相同提示在图像生成和图像检索中的困难程度。我们提出了第一个综合评估图像生成和图像检索中提示 / 查询性能困难程度的基准，包括 10K 个查询。通过各种预生成 / 检索和后生成 / 检索性能预测器的结果，为未来研究提供了竞争基准。

Jun, 2024

学习多维人类偏好的文本到图像生成

通过引入偏爱条件模块到 CLIP 模型，我们提出了首个用于评估文本到图像模型的多维度偏好评分模型，称为 Multi-dimensional Preference Score（MPS）。MPS 在我们的 Multi-dimensional Human Preference（MHP）数据集上进行训练，在四个维度（审美、语义一致性、细节质量和整体评估）上获得 918,315 次人类偏好选择，涵盖了 607,541 张由各类最新文本到图像模型生成的图像。MPS 在三个数据集的四个维度上优于现有评分方法，为评估和改进文本到图像生成提供了有希望的指标。

May, 2024

通过 AI 反馈直接偏好优化提升您自己的人像生成模型

通过使用直接偏好优化（DPO）的人体图像生成方法以及改进的损失函数，本文在人体图像生成领域取得了显著进展，达到了自然解剖结构、姿势和文本 - 图像对齐方面的优越结果。

May, 2024

将文本 - 图像模型与人类喜好更好地对齐

为了更好地满足人类审美偏好，本文通过引入人类评分获得的数据集和人类偏好分类器，提出了一种简单有效的基于稳定扩散的方法，通过调整生成模型，生成更符合人类审美偏好的图像。

Mar, 2023

ImageReward: 学习和评估人类对文本到图像生成的偏好

本文介绍了 ImageReward，第一个通用的文本到图像人类偏好奖励模型，通过系统注释流程，其训练基于涵盖评级和排名组件的数据集，包括 137k 个专家比较。在人类评估中，ImageReward 超越了现有的评分方法（例如 CLIP），成为评估和改进文本到图像合成的有前途的自动度量标准。该奖励模型可通过 exttt {image-reward} 包在 https://github.com/THUDM/ImageReward 上公开获得。

Apr, 2023

多模态大语言模型是文本到图像生成的人类对齐标注器

通过利用多模态大型语言模型创建 VisionPrefer，我们构建了一个高质量和细粒度的用户偏好数据集，用于指导文本到图像生成模型的训练，该数据集在多个偏好方面捕捉了人类的喜好，并且其性能优于之前的人类偏好度量标准，并证明了将人工智能生成的合成数据作为监督信号集成到视觉生成模型中，是实现与人类偏好更好的对齐的一个有前途的途径。

Apr, 2024

多任务基准测试中文本至图像模型的人类评估

我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了 3,600 个评分。

Nov, 2022

TeTIm-Eval：一个用于比较文本到图像模型的新型策划评估数据集

本文提出一种基于 CLIP-score、人类判断和包含 10 个类别的高质量图片文本数据集的新型评估方法，用于评估和比较最新的文本到图片模型。实验结果表明，人类判断的准确性与 CLIP-score 完全一致。数据集已经向公众开放。

Dec, 2022

以意象为探索：探索一种用于对话推荐的多模态数据集

通过多模态数据集，我们介绍了一个用户通过图像表达偏好的研究。这个数据集包含了从风景到艺术表现的广泛的视觉表达，用户请求推荐具有类似感觉的书或音乐，并由社区通过点赞支持。我们的实验证明了大型基础模型在这些任务中的局限性。特别是，视觉 - 语言模型与仅使用描述的语言模型相比没有显著优势，我们推测这是因为未充分利用的视觉能力。为了更好地利用这些能力，我们提出了图像链推理的方法，并取得了显著改进。我们公开发布了我们的代码和数据集。

May, 2024