SelfEval：利用生成模型的判别性质进行评估

Nov, 2023

SelfEval：利用生成模型的判别性质进行评估

SelfEval: Leveraging the discriminative nature of generative models for evaluation

Sai Saketh Rambhatla, Ishan Misra

TL;DR使用文本到图像生成模型的自动化方法 SelfEval，可用于评估生成模型在多模态文本 - 图像辨别任务中的性能，并展示其与人工评估结果在文本忠实性上具有高度一致性。

Abstract

In this work, we show that text-to-image generative models can be 'inverted' to assess their own text-image understanding capabilities in a completely automated manner. Our method, called selfeval, uses the gener

text-to-image generative models selfeval automated metric multimodal text-image discriminative models text faithfulness

发现论文，激发创造

GenEval: 评估文本与图像对齐的对象为中心框架

通过 GenEval 评估框架，我们展示了当前目标检测模型可用于评估各种生成任务的文本到图像模型，并分析其生成能力。我们发现最近的模型在这些任务上有显著改进，但在空间关系和属性绑定等复杂能力方面仍有缺失。最后，我们展示了如何使用 GenEval 来发现现有的失败模式，以促进下一代文本到图像模型的发展。

Oct, 2023

大型语言模型中自我评估提高选择性生成

使用大型语言模型进行自我评估可以提高生成内容的准确性，并与生成内容的整体质量更好地相关。

Dec, 2023

评估文本与图像生成模型：人类图像合成的实证研究

我们在本文中提出了一种经验研究，介绍了一种用于文本到图像（T2I）生成模型的细致评估框架，应用于人类图像合成。我们的框架将评估分为两个不同的组别：第一组主要关注美学和真实性等图像质量，第二组则检验文本条件，包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型，评估生成图像的视觉吸引力，并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性，而公平性分析则揭示了模型输出中的偏见，特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础，但这种双重面向的方法被设计成具有灵活性，可以应用于其他形式的图像生成，增强我们对生成模型的理解，并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码，用于评估生成模型的数据以及标注有有缺陷区域的数据集。

Mar, 2024

DALL-Eval: 探测文本到图像生成模型的推理能力与社会偏见

对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查，提出 PaintSkills 工具集进行测量评估，发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距，并且其在性别和肤色方面的偏见对其表现产生了影响。

Feb, 2022

SelF-Eval: 自监督细粒度对话评估

本文提出了一个新颖的自监督细粒度对话评估框架 SelF-Eval，该框架的核心思想是建立对话质量和对话中每个交互回合质量之间的相关性模型。采用多级对比学习架构训练 SelF-Eval，并提出一种可自动分配细粒度分数的对话数据构建方法，实验结果表明，SelF-Eval 与人类评价高度一致，优于现有的最先进模型。

Aug, 2022

面向可验证和可重复的文本到图像生成的人类评估

本文旨在提出一种规范化和明确定义的人工评估协议，以促进未来作品中可验证和可重复的人工评估，针对 37 篇最近论文调查显示，许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估，同时，作者还提供了设计可靠和决定性人工评估实验所需的见解，并向社区提供了几个公开的资源以促进快速实现。

Apr, 2023

EvalAlign: 通过监督微调人工注释的多模态大模型的精确定位评估文本到图像模型

本文提出了 EvalAlign，这是一种准确性、稳定性和细粒度特性突出的评估指标，通过利用在大规模数据集上进行预训练的多模式大型语言模型（MLLMs）的能力，通过开发集中在图像忠实度和文本 - 图像对齐的两个关键维度的评估协议以及详细的、细粒度的指导指令，进行生成图像的精确手动评分，使 MLLMs 与人类评估判断紧密对齐，得到了一个强大的评估模型。我们对 24 个文本 - 图像生成模型进行了全面的测试，结果表明 EvalAlign 不仅提供了更好的指标稳定性，而且比现有的指标更接近人类的偏好，从而验证了其在模型评估中的有效性和实用性。

Jun, 2024

用于改进文本到图像模型的类条件自奖励机制

通过使用自奖励机制改进自动生成的图像，可以有效提高文本到图像生成模型的性能和图像质量。

May, 2024

FlashEval：面向快速准确的文本到图像扩散生成模型评估

近年来，文本到图像生成模型的发展取得了显著进展。我们提出了一种评估效率的方法，通过选择文本 - 图像数据集的代表性子集来改善模型评估过程。我们研究了设计选择，包括选择标准和选择粒度，并提出了一种名为 FlashEval 的迭代搜索算法。在 COCO 和 DiffusionDB 数据集上，我们证明了 FlashEval 在评估扩散模型方面的有效性。发布这些常用数据集的精简子集以促进扩散算法设计和评估，并开源 FlashEval 作为未来数据集精简的工具。

Mar, 2024

自监督文本识别的判别性和生成性建模：阅读与写作

本文提出一种基于对比学习和遮挡图像建模的自监督文本识别方法，实验结果显示，该方法在不规则场景文本识别数据集上优于之前的自监督文本识别方法 10.2％-20.2％，同时，在 11 个基准测试中，该文本识别器的表现也超过了之前的最新方法平均 5.3％，且能够轻松适用于其他文本相关任务。

Jul, 2022