SelfEval:利用生成模型的判别性质进行评估
通过 GenEval 评估框架,我们展示了当前目标检测模型可用于评估各种生成任务的文本到图像模型,并分析其生成能力。我们发现最近的模型在这些任务上有显著改进,但在空间关系和属性绑定等复杂能力方面仍有缺失。最后,我们展示了如何使用 GenEval 来发现现有的失败模式,以促进下一代文本到图像模型的发展。
Oct, 2023
我们在本文中提出了一种经验研究,介绍了一种用于文本到图像(T2I)生成模型的细致评估框架,应用于人类图像合成。我们的框架将评估分为两个不同的组别:第一组主要关注美学和真实性等图像质量,第二组则检验文本条件,包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型,评估生成图像的视觉吸引力,并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性,而公平性分析则揭示了模型输出中的偏见,特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础,但这种双重面向的方法被设计成具有灵活性,可以应用于其他形式的图像生成,增强我们对生成模型的理解,并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码,用于评估生成模型的数据以及标注有有缺陷区域的数据集。
Mar, 2024
对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查,提出 PaintSkills 工具集进行测量评估,发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距,并且其在性别和肤色方面的偏见对其表现产生了影响。
Feb, 2022
本文提出了一个新颖的自监督细粒度对话评估框架 SelF-Eval,该框架的核心思想是建立对话质量和对话中每个交互回合质量之间的相关性模型。采用多级对比学习架构训练 SelF-Eval,并提出一种可自动分配细粒度分数的对话数据构建方法,实验结果表明,SelF-Eval 与人类评价高度一致,优于现有的最先进模型。
Aug, 2022
本文旨在提出一种规范化和明确定义的人工评估协议,以促进未来作品中可验证和可重复的人工评估,针对 37 篇最近论文调查显示,许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估,同时,作者还提供了设计可靠和决定性人工评估实验所需的见解,并向社区提供了几个公开的资源以促进快速实现。
Apr, 2023
本文提出了 EvalAlign,这是一种准确性、稳定性和细粒度特性突出的评估指标,通过利用在大规模数据集上进行预训练的多模式大型语言模型(MLLMs)的能力,通过开发集中在图像忠实度和文本 - 图像对齐的两个关键维度的评估协议以及详细的、细粒度的指导指令,进行生成图像的精确手动评分,使 MLLMs 与人类评估判断紧密对齐,得到了一个强大的评估模型。我们对 24 个文本 - 图像生成模型进行了全面的测试,结果表明 EvalAlign 不仅提供了更好的指标稳定性,而且比现有的指标更接近人类的偏好,从而验证了其在模型评估中的有效性和实用性。
Jun, 2024
近年来,文本到图像生成模型的发展取得了显著进展。我们提出了一种评估效率的方法,通过选择文本 - 图像数据集的代表性子集来改善模型评估过程。我们研究了设计选择,包括选择标准和选择粒度,并提出了一种名为 FlashEval 的迭代搜索算法。在 COCO 和 DiffusionDB 数据集上,我们证明了 FlashEval 在评估扩散模型方面的有效性。发布这些常用数据集的精简子集以促进扩散算法设计和评估,并开源 FlashEval 作为未来数据集精简的工具。
Mar, 2024
本文提出一种基于对比学习和遮挡图像建模的自监督文本识别方法,实验结果显示,该方法在不规则场景文本识别数据集上优于之前的自监督文本识别方法 10.2%-20.2%,同时,在 11 个基准测试中,该文本识别器的表现也超过了之前的最新方法平均 5.3%,且能够轻松适用于其他文本相关任务。
Jul, 2022