重新评估图像字幕自动评估指标

Dec, 2016

Re-evaluating Automatic Metrics for Image Captioning

Mert Kilickaya, Aykut Erdem, Nazli Ikizler-Cinbis, Erkut Erdem

TL;DR本文通过一系列的实验，深入评估了现有的图像字幕度量，并探索了最近提出的 Word Mover's Distance（WMD）文档度量在图像字幕中的应用。结果表明，WMD 相比其他度量具有较强的优势。

Abstract

The task of generating natural language descriptions from images has received a lot of attention in recent years. Consequently, it is becoming increasingly important to evaluate such image captioning approaches in an automatic manner. In this paper, we provide an in-depth →

image captioning natural language generation evaluation word mover's distance metrics

发现论文，激发创造

学习评估图像字幕生成

提出了一种基于学习的区分性评价指标，通过数据扩增方案显著提高了评价指标对病态构造的鲁棒性，并在 FLickr 8k 和 COCO 数据集上对其他指标表现良好。

Jun, 2018

语言生成评估指标的奇异案例：一则警示故事

本文探讨了自然语言处理中，现有的语言生成系统的自动评估指标的局限性，提出了一些应该受到更多关注的失败案例，鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。

Oct, 2020

MoverScore: 文本生成的上下文嵌入和地球移动距离评估

本文研究评估文本生成系统的评价指标，提出了基于语义而非形式的指标 MoverScore，并通过多项任务的验证表明采用上下文表示和距离测度相结合的方法可以取得最佳表现，该指标具有较强的泛化能力，并已提供 Web 服务方便使用。

Sep, 2019

COSMic: 一个针对图像描述的一致性感知生成度量

本研究提出了一种基于计算话语理论的生成度量，用于评估图像描述生成模型的语义和语用成功，与最近提出的学习指标相比，在人类评分预测方面表现更好。

Sep, 2021

无参考图像字幕评估指标的鲁棒性研究

评估了 CLIPScore 和 UMIC 这两种自动评估图像标题的参考无关度量标准的鲁棒性，发现这两个指标在识别标题中的微小差错方面存在一定困难，同时受视觉概念和语言结构的影响。

May, 2023

文本生成动作的最佳自动评估指标是什么？

人们对从自然语言描述中生成基于骨架的人类动作越来越感兴趣。本文系统地研究了哪些度量标准与人类评价最为相关，并提出了新的度量标准，这些度量标准与人类判断之间的相关性更好。通过对样本水平的人类评价，发现目前用于此任务的度量标准中没有一个与人类判断呈现中度甚至更高的相关性。然而，用于评估模型平均性能的常用度量标准（例如 R-Precision）和较少使用的坐标误差表现出了较强的相关性。此外，与其他替代方法相比，不推荐使用一些最近开发的度量标准，因为它们与人类判断的相关性较低。我们还引入了一种基于多模态 BERT 模型 MoBERT 的新度量标准，该度量标准在样本级别上与人类判断高度相关，并且在模型级别上具有近乎完美的相关性。我们的结果表明，这种新度量标准比当前所有替代方案都有广泛的优势。

Sep, 2023

关于图像标注中的多样性：如何像人类一样描述

本文提出了一种新的度量图像标题多样性的指标，并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量，结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距，并且优化准确度（CIDEr）的模型的多样性很低，同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。

Mar, 2019

通过比较和重新加权进行独特图像字幕

本研究旨在通过比较和重新加权计算一组相似图像来提高图像字幕的独特性。我们提出了一种称为 CIDErBtw 的独特性度量，用于衡量字幕与类似图像的独特性，并在训练期间重新加权了每个人工注释，以提高生成的字幕的独特性和准确性。

Apr, 2022

图像字幕的透明人工评估

本文介绍了一种基于机器和人生成的 MSCOCO 数据集上的图像标注模型的评估协议 THumB，用于评估图像文本的质量。我们的实验发现，使用图像特征的近期度量值 CLIPScore 更符合人类评判标准。

Nov, 2021

InfoMetIC：一种用于无参考图像描述评估的信息度量

该研究提出了一种新的图像字幕评价指标 InfoMetIC，可以对图像字幕的正确性和覆盖性进行精细和粗略级别的评估，表现出比现有指标更好的人工判断相关性，同时还构建了一个基于令牌的评估数据集。

May, 2023