使用人类参考数据评估自动图像描述

CVPRJun, 2020

使用人类参考数据评估自动图像描述

On the use of human reference data for evaluating automatic image descriptions

Emiel van Miltenburg

TL;DR通过产生更好的数据和寻找替代方法来改进图像描述系统的评估，因为当前的图像描述数据集质量不足。需要更详细的指导方针来考虑视觉障碍用户的需求和生成适当的描述。

Abstract

automatic image description systems are commonly trained and evaluated using crowdsourced, human-generated image descriptions. The best-performing system is then determined using some measure of similarity to the reference data (BLEU, Meteor, CIDER, etc). Thus, both the quality of the

automatic image description systems evaluation image description datasets visually impaired users reference descriptions

发现论文，激发创造

CIDEr：基于共识的图像描述评估

本文提出了一种基于人类共识的评估图像描述的新方法，包括新的基于三元组的人类注释方法、一种捕捉共识的新自动化指标（CIDEr）和包含 50 个对每个图像进行描述的句子的两个新数据集（PASCAL-50S 和 ABSTRACT-50S）。使用这种新协议评估了五种最先进的图像描述方法，并提供了未来比较的基准。

Nov, 2014

从图像中生成自动描述：模型、数据集和评估措施综述

本文综述了计算机视觉和自然语言处理社区最近对于从自然图像中自动生成描述的兴趣，系统分类了现有的方法并进行了详细回顾，讨论了它们的优缺点，总结了基准图像数据集和评估措施，并展望了未来的发展方向。

Jan, 2016

图像文本化：一种自动创建准确详细图像描述的框架

通过结合现有的多模态大语言模型（MLLMs）与多个视觉专家模型，我们提出了一种名为图像文本化（IT）的创新框架，以最大程度地将视觉信息转化为文本，自动生成高质量的图像描述。我们还提出了几个综合评估基准来验证我们框架所创建的图像描述的质量，显示经过 IT 精选描述训练的 LLaVA-7B 模型在生成更丰富的图像描述方面的能力得到了提高。

Jun, 2024

关于图像标注中的多样性：如何像人类一样描述

本文提出了一种新的度量图像标题多样性的指标，并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量，结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距，并且优化准确度（CIDEr）的模型的多样性很低，同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。

Mar, 2019

面向可验证和可重复的文本到图像生成的人类评估

本文旨在提出一种规范化和明确定义的人工评估协议，以促进未来作品中可验证和可重复的人工评估，针对 37 篇最近论文调查显示，许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估，同时，作者还提供了设计可靠和决定性人工评估实验所需的见解，并向社区提供了几个公开的资源以促进快速实现。

Apr, 2023

学习评估图像字幕生成

提出了一种基于学习的区分性评价指标，通过数据扩增方案显著提高了评价指标对病态构造的鲁棒性，并在 FLickr 8k 和 COCO 数据集上对其他指标表现良好。

Jun, 2018

通过人工多重参考研究开放式对话系统的评估

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

图像描述中的跨语言差异与相似性

通过对英语、荷兰语和德语图像描述的跨语言比较，发现众包工作者对图像的熟悉程度对图像描述的具体性有明显影响。

Jul, 2017

图像字幕的透明人工评估

本文介绍了一种基于机器和人生成的 MSCOCO 数据集上的图像标注模型的评估协议 THumB，用于评估图像文本的质量。我们的实验发现，使用图像特征的近期度量值 CLIPScore 更符合人类评判标准。

Nov, 2021

重新评估图像字幕自动评估指标

本文通过一系列的实验，深入评估了现有的图像字幕度量，并探索了最近提出的 Word Mover's Distance（WMD）文档度量在图像字幕中的应用。结果表明，WMD 相比其他度量具有较强的优势。

Dec, 2016