ImageReward: 学习和评估人类对文本到图像生成的偏好

Apr, 2023

ImageReward: 学习和评估人类对文本到图像生成的偏好

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li...

TL;DR本文介绍了 ImageReward，第一个通用的文本到图像人类偏好奖励模型，通过系统注释流程，其训练基于涵盖评级和排名组件的数据集，包括 137k 个专家比较。在人类评估中，ImageReward 超越了现有的评分方法（例如 CLIP），成为评估和改进文本到图像合成的有前途的自动度量标准。该奖励模型可通过 exttt {image-reward} 包在 https://github.com/THUDM/ImageReward 上公开获得。

Abstract

We present imagereward -- the first general-purpose text-to-image human preference reward model -- to address various prevalent issues in generative models and align them with human values and preferences. Its tr

imagereward text-to-image human preference generative models automatic metric

发现论文，激发创造

DreamReward: 人类偏好的文本生成三维图形

从人类偏好反馈中学习和改进文本生成 3D 模型的综合框架，通过理论分析和广泛实验比较，我们的 DreamReward 成功生成高保真和与人类意图一致的 3D 结果，展示了从人类反馈中改进文本生成 3D 模型的巨大潜力。

Mar, 2024

利用人类反馈对齐文本与图像模型

本文介绍了一种 Fine-Tuning 方法，使用人类反馈对齐文本到图像的 Deep generative model，通过分析设计选择平衡对齐 - 准确性的权衡，最终通过奖励加权似然优化，使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明，利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。

Feb, 2023

用于改进文本到图像模型的类条件自奖励机制

通过使用自奖励机制改进自动生成的图像，可以有效提高文本到图像生成模型的性能和图像质量。

May, 2024

面向可验证和可重复的文本到图像生成的人类评估

本文旨在提出一种规范化和明确定义的人工评估协议，以促进未来作品中可验证和可重复的人工评估，针对 37 篇最近论文调查显示，许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估，同时，作者还提供了设计可靠和决定性人工评估实验所需的见解，并向社区提供了几个公开的资源以促进快速实现。

Apr, 2023

评估文本与图像生成模型：人类图像合成的实证研究

我们在本文中提出了一种经验研究，介绍了一种用于文本到图像（T2I）生成模型的细致评估框架，应用于人类图像合成。我们的框架将评估分为两个不同的组别：第一组主要关注美学和真实性等图像质量，第二组则检验文本条件，包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型，评估生成图像的视觉吸引力，并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性，而公平性分析则揭示了模型输出中的偏见，特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础，但这种双重面向的方法被设计成具有灵活性，可以应用于其他形式的图像生成，增强我们对生成模型的理解，并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码，用于评估生成模型的数据以及标注有有缺陷区域的数据集。

Mar, 2024

文本到图像生成的丰富人类反馈

通过人类反馈信号提高图像生成质量，结合文本到图像生成模型和基于强化学习的人类反馈，标记不真实或不对齐的图像区域以及文本中被误代表或缺失的词，使用多模态变换器自动预测反馈，进一步改进图像生成方法。

Dec, 2023

人类喜好评分 v2：用于评估文本到图像合成的人类喜好的可靠基准

本研究引入了人类喜好数据集 v2 (HPD v2) 和人类偏好评分模型 v2 (HPS v2)，可更准确地评估基于文本的图像生成模型的质量，并建立了以 HPS v2 为基准的评估标准及基准模型。

Jun, 2023

学习多维人类偏好的文本到图像生成

通过引入偏爱条件模块到 CLIP 模型，我们提出了首个用于评估文本到图像模型的多维度偏好评分模型，称为 Multi-dimensional Preference Score（MPS）。MPS 在我们的 Multi-dimensional Human Preference（MHP）数据集上进行训练，在四个维度（审美、语义一致性、细节质量和整体评估）上获得 918,315 次人类偏好选择，涵盖了 607,541 张由各类最新文本到图像模型生成的图像。MPS 在三个数据集的四个维度上优于现有评分方法，为评估和改进文本到图像生成提供了有希望的指标。

May, 2024

利用强化学习与人类反馈增强图像字幕生成

本研究探索了一种潜在的方法，通过使用 Flickr8k 数据集，将监督学习和强化学习与人类反馈相结合，以提高深度神经网络模型生成符合人类偏好的标题的性能，并引入了一种新的损失函数，能够基于人类反馈优化模型。

Mar, 2024

多任务基准测试中文本至图像模型的人类评估

我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了 3,600 个评分。

Nov, 2022