无参考图像字幕评估指标中的眼镜蛇效应

Feb, 2024

无参考图像字幕评估指标中的眼镜蛇效应

Cobra Effect in Reference-Free Image Captioning Metrics

Zheng Ma, Changxin Wang, Yawen Ouyang, Fei Zhao, Jianbing Zhang...

TL;DR评估文本描述与相应图像之间的兼容性是多模态研究中的核心工作之一。本文研究了无参考指标的不足之处，并提出了一种名为 “自我完善” 的新方法来纠正这些指标的不足，并通过 GPT-4V 评估生成的句子以获得最先进的性能。此外，我们还介绍了一个具有挑战性的评估基准来全面评估无参考图像描述度量标准。

Abstract

Evaluating the compatibility between textual descriptions and corresponding images represents a core endeavor within multi-modal research. In recent years, a proliferation of reference-free methods, leveraging visual-language pre-trained models (VLMs), has emerged. Empirical evidence h

compatibility visual-language pre-trained models reference-free metrics cobra effect self-improving

发现论文，激发创造

无参考图像字幕评估指标的鲁棒性研究

评估了 CLIPScore 和 UMIC 这两种自动评估图像标题的参考无关度量标准的鲁棒性，发现这两个指标在识别标题中的微小差错方面存在一定困难，同时受视觉概念和语言结构的影响。

May, 2023

学习评估图像字幕生成

提出了一种基于学习的区分性评价指标，通过数据扩增方案显著提高了评价指标对病态构造的鲁棒性，并在 FLickr 8k 和 COCO 数据集上对其他指标表现良好。

Jun, 2018

上下文对无障碍图像描述的影响：基于无参考评价指标的挑战

在对盲人和低视力用户进行调查后，本研究认为目前的基于图像的自然语言生成系统无法满足用户的需求，因为现有的评价指标没有考虑上下文信息，而上下文信息对于盲人和低视力用户至关重要。为解决这个问题，本文提出一个新的基于上下文信息的评价指标，并对其进行了证明。

May, 2022

基于参考的度量方法在问题生成中的自否定

该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成（QG）时发现，使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法，通过利用大型语言模型来评估问题的自然性、可回答性和复杂性，该度量方法不受单个参考问题的句法或语义限制，也不需要多样化的参考文献集合。实验证明，该度量方法能够准确区分高质量问题和有缺陷的问题，并与人类判断达到最先进的一致性。

Mar, 2024

关于释义生成的评估度量

本文重新审视了用于复述评估的自动评估度量，并得出两个违背常规智慧的发现：(1) 无参考度量比基于参考文本的度量具有更好的性能。 (2) 人类注释与使用最多的度量不太相符。通过额外的实验证明和深入的分析探讨了上述发现背后的原因。基于实验和分析，我们提出了 ParaScore，这是一种新的复述生成评估指标。它具有基于参考的和无参考的指标的优点，并明确地建模词汇差异。实验结果证明，ParaScore 显着优于现有的指标。

Feb, 2022

生成文本的无参考评估的局限性

我们的研究表明：参考文本的自由度量在评估生成文本方面存在固有的偏见和限制，因此建议将其作为分析和理解模型行为的诊断工具，而不是评估模型任务表现的指标。

Oct, 2022

图像描述生成的无参考度量评估

该研究引入了 ContextRef 作为一个基准，用于评估视觉 - 语言模型的参考度量与人类喜好判断的一致性，并通过评估各种预训练模型、评分函数和上下文整合技术来提高描述质量。

Sep, 2023

CLIPScore：一种基于参照无关的图像字幕评估指标

自然语言和图片联合训练的 CLIP 模型可用于基于图像的字幕的评估过程中，而无需参考词，CLIPScore 作为一种新的无参考评估指标可以实现与人类判断的最高相关性。

Apr, 2021

重新评估图像字幕自动评估指标

本文通过一系列的实验，深入评估了现有的图像字幕度量，并探索了最近提出的 Word Mover's Distance（WMD）文档度量在图像字幕中的应用。结果表明，WMD 相比其他度量具有较强的优势。

Dec, 2016

FLEUR：基于大型多模态模型的图像字幕解释性无参考评估度量

借助大型多模型，本文提出了一种解释性的无参考度量方法 FLEUR，用以评估图像说明。FLEUR 不需参考说明即能对图像说明进行评估，并提供评分的解释。通过引入评分平滑化以尽可能与人类判断接近，并对用户定义的等级标准具有鲁棒性，FLEUR 在各种图像说明评估基准上与人类判断之间达到了高度相关性，并在 Flickr8k-CF、COMPOSITE 和 Pascal-50S 上取得了最先进的结果，成为了无参考评估度量领域的最新成果。

Jun, 2024