通过 GenEval 评估框架,我们展示了当前目标检测模型可用于评估各种生成任务的文本到图像模型,并分析其生成能力。我们发现最近的模型在这些任务上有显著改进,但在空间关系和属性绑定等复杂能力方面仍有缺失。最后,我们展示了如何使用 GenEval 来发现现有的失败模式,以促进下一代文本到图像模型的发展。
Oct, 2023
对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查,提出 PaintSkills 工具集进行测量评估,发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距,并且其在性别和肤色方面的偏见对其表现产生了影响。
Feb, 2022
本文提出了一个新颖的自监督细粒度对话评估框架 SelF-Eval,该框架的核心思想是建立对话质量和对话中每个交互回合质量之间的相关性模型。采用多级对比学习架构训练 SelF-Eval,并提出一种可自动分配细粒度分数的对话数据构建方法,实验结果表明,SelF-Eval 与人类评价高度一致,优于现有的最先进模型。
Aug, 2022
本文旨在提出一种规范化和明确定义的人工评估协议,以促进未来作品中可验证和可重复的人工评估,针对 37 篇最近论文调查显示,许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估,同时,作者还提供了设计可靠和决定性人工评估实验所需的见解,并向社区提供了几个公开的资源以促进快速实现。
Apr, 2023
本文提出一种基于对比学习和遮挡图像建模的自监督文本识别方法,实验结果显示,该方法在不规则场景文本识别数据集上优于之前的自监督文本识别方法 10.2%-20.2%,同时,在 11 个基准测试中,该文本识别器的表现也超过了之前的最新方法平均 5.3%,且能够轻松适用于其他文本相关任务。
Jul, 2022
本研究旨在系统研究各种基于图像的生成模型,通过在人类感知上度量图像逼真度,发现现有指标与人类感知存在巨大差距;同时也发现现有指标无法适当检测到模型对数据的记忆现象;针对这些问题,我们提出了一种更可靠的特征提取器,并且释放了全部生成的图像数据集、人类评估数据以及计算 16 种公共指标的模块化库,以便更好地促进生成模型的发展和评估。
Jun, 2023
本文提出一种基于 CLIP-score、人类判断和包含 10 个类别的高质量图片文本数据集的新型评估方法,用于评估和比较最新的文本到图片模型。实验结果表明,人类判断的准确性与 CLIP-score 完全一致。数据集已经向公众开放。
Dec, 2022
我们提供了一个新的多任务基准,用于评估文本到图像模型,在计算机视觉和机器学习领域中进行了广泛的研究,我们进行了人类评估,比较了最常见的开源(稳定扩散)和商业(DALL-E 2)模型,在三个难度级别上的三个任务上,跨十个提示,提供了 3,600 个评分。
Nov, 2022
本文研究自然语言生成的评估方法,并通过自动化评估和人工评估的比较,发现词汇重叠是自然语言生成的较好评估指标,而人工评估与自动化评估在排名上存在较大差异,因此呼吁重新考虑自然语言生成的评估目标。
Jan, 2019
本研究提出了一种评估度量标准,以明确,非参数化表示真实和生成数据流形, 可以分别和可靠地测量图像生成任务中样本的质量和覆盖范围, 并且展示了该度量标准在 StyleGAN 和 BigGAN 方面的有效性。同时,我们分析了 StyleGAN 的多个设计变体以更好地了解模型架构,训练方法与样本分布属性之间的关系,并识别出新的改进方法。最后,我们将度量标准扩展到个体样本的感知质量估计,并使用它来研究潜空间插值。
Apr, 2019