无参考图像字幕评估指标的鲁棒性研究

May, 2023

无参考图像字幕评估指标的鲁棒性研究

An Examination of the Robustness of Reference-Free Image Captioning Evaluation Metrics

Saba Ahmadi, Aishwarya Agrawal

TL;DR评估了 CLIPScore 和 UMIC 这两种自动评估图像标题的参考无关度量标准的鲁棒性，发现这两个指标在识别标题中的微小差错方面存在一定困难，同时受视觉概念和语言结构的影响。

Abstract

Recently, reference-free metrics such as clipscore (Hessel et al., 2021) and umic (Lee et al., 2021) have been proposed for automatic

reference-free metrics clipscore umic image captioning evaluation

发现论文，激发创造

CLIPScore：一种基于参照无关的图像字幕评估指标

自然语言和图片联合训练的 CLIP 模型可用于基于图像的字幕的评估过程中，而无需参考词，CLIPScore 作为一种新的无参考评估指标可以实现与人类判断的最高相关性。

Apr, 2021

UMIC：基于对比学习的图像描述无参考评价指标

本文提出了一种新的评估图像字幕的度量 UMIC，其通过对比学习不需要参考字幕。同时，我们发现以前的标准数据集在图像字幕度量方面存在关键问题，并对生成字幕进行了新的人类注释。在包括我们的新数据集在内的四个数据集上验证了 UMIC，证明了 UMIC 的相关性比所有需要多个参考文本度量的先前度量更高。我们发布了基准数据集和预训练模型以计算 UMIC。

Jun, 2021

图像字幕的透明人工评估

本文介绍了一种基于机器和人生成的 MSCOCO 数据集上的图像标注模型的评估协议 THumB，用于评估图像文本的质量。我们的实验发现，使用图像特征的近期度量值 CLIPScore 更符合人类评判标准。

Nov, 2021

使用 CLIP 奖励的细粒度图像字幕生成

本研究提出使用基于大规模图像 - 文本对训练的多模态编码器 CLIP 计算多模态相似度并将其用作奖励函数来产生更加具有描述性和独特性的标题，同时证明使用 CLIP 奖励相较于传统奖励模板对于改善生成模型具有优势，并介绍了一种简单的 CLIP 文本编码器微调策略以提高语法。

May, 2022

无参考图像字幕评估指标中的眼镜蛇效应

评估文本描述与相应图像之间的兼容性是多模态研究中的核心工作之一。本文研究了无参考指标的不足之处，并提出了一种名为 “自我完善” 的新方法来纠正这些指标的不足，并通过 GPT-4V 评估生成的句子以获得最先进的性能。此外，我们还介绍了一个具有挑战性的评估基准来全面评估无参考图像描述度量标准。

Feb, 2024

InfoMetIC：一种用于无参考图像描述评估的信息度量

该研究提出了一种新的图像字幕评价指标 InfoMetIC，可以对图像字幕的正确性和覆盖性进行精细和粗略级别的评估，表现出比现有指标更好的人工判断相关性，同时还构建了一个基于令牌的评估数据集。

May, 2023

学习评估图像字幕生成

提出了一种基于学习的区分性评价指标，通过数据扩增方案显著提高了评价指标对病态构造的鲁棒性，并在 FLickr 8k 和 COCO 数据集上对其他指标表现良好。

Jun, 2018

更新 CLIP 以偏爱描述而非标题

通过使用 Concadia 数据集来更新 CLIP 模型，使用参数高效微调和基于因果可解释性的损失目标，以区分描述和标题，并获得盲人和弱视人群的判断，同时保持转移能力和可解释性结构。

Jun, 2024

CLAIR: 使用大型语言模型评估图像标题

CLAIR 是一种新颖方法，利用大型语言模型（LLMs）的零 - shot 语言建模能力来评估候选图像标题，与现有方法相比，CLAIR 在与人类判断相符的标题质量方面表现出更强的相关性，能够清晰解读结果与其分配的分数背后的推理过程。

Oct, 2023

PR-MCS: 针对多语言图像字幕生成的扰动鲁棒度量

本文提出了 Perturbation Robust Multi-Lingual CLIPScore (PR-MCS) 作为一种新型的无参考图像字幕度量标准，应用于多种语言，以确保对各种干扰类型的语言扰动具有高度鲁棒性。

Mar, 2023