学习评估图像字幕生成

CVPRJun, 2018

Learning to Evaluate Image Captioning

Yin Cui, Guandao Yang, Andreas Veit, Xun Huang, Serge Belongie

TL;DR提出了一种基于学习的区分性评价指标，通过数据扩增方案显著提高了评价指标对病态构造的鲁棒性，并在 FLickr 8k 和 COCO 数据集上对其他指标表现良好。

Abstract

evaluation metrics for image captioning face two challenges. Firstly, commonly used metrics such as CIDEr, METEOR, ROUGE and BLEU often do not correlate well with human judgments. Secondly, each metric has well k

image captioning evaluation metrics learning-based discriminative evaluation robustness tests data augmentation

发现论文，激发创造

SPICE：语义命题图像字幕评估

提出了基于场景图谱的自动生成图像标题评估指标 SPICE，其捕捉人类判断模型生成标题的能力优于现有指标，并能回答哪个标题生成器更懂颜色和能否计数等问题。

Jul, 2016

JaSPICE：基于谓词 - 论元结构的自动评估度量方法用于图像字幕模型

本研究提出了一种自动评估度量 ——JaSPICE，根据场景图评估日语字幕，并通过依赖关系和谓语 - 论元结构生成场景图，并使用同义词扩展图。实验结果表明，我们的度量方法在与人工评估的相关系数方面超过基准度量方法。

Nov, 2023

走向对图片的独特和信息丰富的字幕

本文通过实证实验对现代的图像标注系统和评价指标进行了分析，并引入了一种新的独特度度量标准 SPICE-U，该标准通过使用对象探测器以及使用相互信息作为重新排序目标来改善现有的标注模型。

Sep, 2020

图像字幕的透明人工评估

本文介绍了一种基于机器和人生成的 MSCOCO 数据集上的图像标注模型的评估协议 THumB，用于评估图像文本的质量。我们的实验发现，使用图像特征的近期度量值 CLIPScore 更符合人类评判标准。

Nov, 2021

关于图像标注中的多样性：如何像人类一样描述

本文提出了一种新的度量图像标题多样性的指标，并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量，结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距，并且优化准确度（CIDEr）的模型的多样性很低，同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。

Mar, 2019

重新评估图像字幕自动评估指标

本文通过一系列的实验，深入评估了现有的图像字幕度量，并探索了最近提出的 Word Mover's Distance（WMD）文档度量在图像字幕中的应用。结果表明，WMD 相比其他度量具有较强的优势。

Dec, 2016

通过比较和重新加权进行独特图像字幕

本研究旨在通过比较和重新加权计算一组相似图像来提高图像字幕的独特性。我们提出了一种称为 CIDErBtw 的独特性度量，用于衡量字幕与类似图像的独特性，并在训练期间重新加权了每个人工注释，以提高生成的字幕的独特性和准确性。

Apr, 2022

COSMic: 一个针对图像描述的一致性感知生成度量

本研究提出了一种基于计算话语理论的生成度量，用于评估图像描述生成模型的语义和语用成功，与最近提出的学习指标相比，在人类评分预测方面表现更好。

Sep, 2021

SPIDEr 策略梯度优化改进图像字幕生成

本文提出了一种基于策略梯度方法的优化算法，用于改进图像标题生成质量评估的 SPICE 和 CIDEr 指标的线性组合 SPIDEr，实验表明该算法优于之前的 MIXER 算法，并且使得使用 SPIDEr 指标训练的生成的图像标题比使用 MLE 或 COCO 指标训练的更受人类评估者欢迎。

Dec, 2016

无参考图像字幕评估指标的鲁棒性研究

评估了 CLIPScore 和 UMIC 这两种自动评估图像标题的参考无关度量标准的鲁棒性，发现这两个指标在识别标题中的微小差错方面存在一定困难，同时受视觉概念和语言结构的影响。

May, 2023