May, 2024

学习多维人类偏好的文本到图像生成

TL;DR通过引入偏爱条件模块到 CLIP 模型,我们提出了首个用于评估文本到图像模型的多维度偏好评分模型,称为 Multi-dimensional Preference Score(MPS)。MPS 在我们的 Multi-dimensional Human Preference(MHP)数据集上进行训练,在四个维度(审美、语义一致性、细节质量和整体评估)上获得 918,315 次人类偏好选择,涵盖了 607,541 张由各类最新文本到图像模型生成的图像。MPS 在三个数据集的四个维度上优于现有评分方法,为评估和改进文本到图像生成提供了有希望的指标。