May, 2023

Pick-a-Pic: 一种用户文本到图像生成偏好的开放数据集

TL;DR通过创建一个网络应用程序,我们制作了 Pick-a-Pic 数据集,以收集来自文本到图像用户的大规模偏好数据。使用该数据集,我们训练了一种基于 CLIP 的评分函数 PickScore,并证明其在预测人类偏好方面具有超人级的性能。因此,我们建议将 PickScore 用于评估未来的文本到图像生成模型,并使用 Pick-a-Pic 提示作为比 MS-COCO 更相关的数据集。最后,我们演示了如何通过排名来提高现有的文本到图像模型。