面向可验证和可重复的文本到图像生成的人类评估
我们提供了一个新的多任务基准,用于评估文本到图像模型,在计算机视觉和机器学习领域中进行了广泛的研究,我们进行了人类评估,比较了最常见的开源(稳定扩散)和商业(DALL-E 2)模型,在三个难度级别上的三个任务上,跨十个提示,提供了3,600个评分。
Nov, 2022
通过人类反馈信号提高图像生成质量,结合文本到图像生成模型和基于强化学习的人类反馈,标记不真实或不对齐的图像区域以及文本中被误代表或缺失的词,使用多模态变换器自动预测反馈,进一步改进图像生成方法。
Dec, 2023
我们在本文中提出了一种经验研究,介绍了一种用于文本到图像(T2I)生成模型的细致评估框架,应用于人类图像合成。我们的框架将评估分为两个不同的组别:第一组主要关注美学和真实性等图像质量,第二组则检验文本条件,包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型,评估生成图像的视觉吸引力,并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性,而公平性分析则揭示了模型输出中的偏见,特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础,但这种双重面向的方法被设计成具有灵活性,可以应用于其他形式的图像生成,增强我们对生成模型的理解,并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码,用于评估生成模型的数据以及标注有有缺陷区域的数据集。
Mar, 2024
我们通过对自动评价度量和人类模板进行广泛研究,介绍了一种综合的基于技能的基准,收集了超过100,000个注释,并引入了一种新的基于问答的自动评价度量,以在各种人类模板和TIFA160上更好地与人类评分相关联。
Apr, 2024
通过借鉴用户体验研究和人类行为心理学等学科的见解,我们在这篇论文中讨论了生成式大型语言模型(LLMs)的人工评估应该是一项跨学科工作,以确保实验设计和结果的可靠性。我们强调了认知偏见如何混淆流畅信息和真实性,以及认知不确定性如何影响评分(如Likert)的可靠性。此外,评估应该区分越来越强大的大型语言模型的能力和弱点,这需要有效的测试集。在生成式NLP时代设计一个有效的人工评估系统的可伸缩性也至关重要,因此我们提出了ConSiDERS-The-Human评估框架,它由一致性、评分标准、差异化、用户体验、负责任和可伸缩性这6个支柱组成。
May, 2024
本文通过对GenAI-Bench上的人类评分进行广泛研究,评估领先的图像和视频生成模型在复合文本到视觉生成的各个方面的性能,并发现VQAScore比先前的评估指标(如CLIPScore)明显优于人类评分,而且VQAScore可以在黑盒的基础上通过简单地对候选图像进行排名(3到9张)从而显著提高生成速度,在需要高级视觉语言推理的复合提示下,VQAScore的排名效果比其他评分方法如PickScore、HPSv2和ImageReward提高2倍至3倍。
Jun, 2024
本文提出了EvalAlign,这是一种准确性、稳定性和细粒度特性突出的评估指标,通过利用在大规模数据集上进行预训练的多模式大型语言模型(MLLMs)的能力,通过开发集中在图像忠实度和文本-图像对齐的两个关键维度的评估协议以及详细的、细粒度的指导指令,进行生成图像的精确手动评分,使MLLMs与人类评估判断紧密对齐,得到了一个强大的评估模型。我们对24个文本-图像生成模型进行了全面的测试,结果表明EvalAlign不仅提供了更好的指标稳定性,而且比现有的指标更接近人类的偏好,从而验证了其在模型评估中的有效性和实用性。
Jun, 2024
通过 qualitatively 评估精确生成人脸、群体和指定数量对象的图片,我们不仅检查了多个文本到图像模型的性能,还进行了社会偏见分析。我们发现,容量更大的模型生成的图片质量更高,但同时这些模型也存在固有的性别或社会偏见,从而更全面地了解了它们的影响和局限性。
Jun, 2024
本研究解决了自动生成图像描述质量评估中的挑战,尤其是现有自动化评估指标与人工判断之间的相关性不足。通过引入一种基于现代大型语言模型(如GPT-4或Gemini)的新评估框架,我们将生成的描述与相应的生成图像进行相似性比较,从而客观评估图像描述模型的有效性。这一方法在无需人工注释的情况下,能够有效评估图像描述的准确性,为相关研究提供了新的工具。
Aug, 2024
本研究解决了图像生成模型评估中的主观判断和人类偏好的问题,提出了一种利用Rapidata技术的高效注释框架,收集了来自全球多样化评审员的超过200万条注释。研究表明,这种方法可以全面排名图像生成模型,并大幅减少评估偏差风险。
Sep, 2024