图像描述生成的无参考度量评估

Sep, 2023

ContextRef: Evaluating Referenceless Metrics For Image Description Generation

Elisa Kreiss, Eric Zelikman, Christopher Potts, Nick Haber

TL;DR该研究引入了 ContextRef 作为一个基准，用于评估视觉 - 语言模型的参考度量与人类喜好判断的一致性，并通过评估各种预训练模型、评分函数和上下文整合技术来提高描述质量。

Abstract

referenceless metrics (e.g., clipscore) use pretrained vision--language models to assess image descriptions directly without costly ground-truth reference texts. Such methods can facilitate rapid progress, but on

referenceless metrics clipscore contextref benchmark description quality

发现论文，激发创造

上下文对无障碍图像描述的影响：基于无参考评价指标的挑战

在对盲人和低视力用户进行调查后，本研究认为目前的基于图像的自然语言生成系统无法满足用户的需求，因为现有的评价指标没有考虑上下文信息，而上下文信息对于盲人和低视力用户至关重要。为解决这个问题，本文提出一个新的基于上下文信息的评价指标，并对其进行了证明。

May, 2022

CLIPScore：一种基于参照无关的图像字幕评估指标

自然语言和图片联合训练的 CLIP 模型可用于基于图像的字幕的评估过程中，而无需参考词，CLIPScore 作为一种新的无参考评估指标可以实现与人类判断的最高相关性。

Apr, 2021

无参考图像字幕评估指标的鲁棒性研究

评估了 CLIPScore 和 UMIC 这两种自动评估图像标题的参考无关度量标准的鲁棒性，发现这两个指标在识别标题中的微小差错方面存在一定困难，同时受视觉概念和语言结构的影响。

May, 2023

无参考图像字幕评估指标中的眼镜蛇效应

评估文本描述与相应图像之间的兼容性是多模态研究中的核心工作之一。本文研究了无参考指标的不足之处，并提出了一种名为 “自我完善” 的新方法来纠正这些指标的不足，并通过 GPT-4V 评估生成的句子以获得最先进的性能。此外，我们还介绍了一个具有挑战性的评估基准来全面评估无参考图像描述度量标准。

Feb, 2024

基于参考的度量方法在问题生成中的自否定

该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成（QG）时发现，使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法，通过利用大型语言模型来评估问题的自然性、可回答性和复杂性，该度量方法不受单个参考问题的句法或语义限制，也不需要多样化的参考文献集合。实验证明，该度量方法能够准确区分高质量问题和有缺陷的问题，并与人类判断达到最先进的一致性。

Mar, 2024

基于半监督语言模型微调和对比学习的自动语音识别无参考质量度量

本文介绍了一种名为 NoRefER 的新型无参考质量评估指标，其采用对比学习和连体网络结构，自我监督地精调跨语言语言模型以进行自动语音识别假设的点对排序以评估质量。半监督版本还使用参考数据集来改善对潜在错误样本的选择。实验结果表明，NoRefER 与基于参考的指标高度相关，具有不错的无参考 ASR 评估或 A / B 测试潜力。

Jun, 2023

UMIC：基于对比学习的图像描述无参考评价指标

本文提出了一种新的评估图像字幕的度量 UMIC，其通过对比学习不需要参考字幕。同时，我们发现以前的标准数据集在图像字幕度量方面存在关键问题，并对生成字幕进行了新的人类注释。在包括我们的新数据集在内的四个数据集上验证了 UMIC，证明了 UMIC 的相关性比所有需要多个参考文本度量的先前度量更高。我们发布了基准数据集和预训练模型以计算 UMIC。

Jun, 2021

基于多语言自监督对比学习的自动语音识别无参考质量度量

本文提出了一种多语言无参考质量度量方法，使用预先训练的语言模型采用对比学习的自我监督学习方式进行微调，针对自动语音识别模型提出了一个评估标准，该评估标准可以在没有参考标记的情况下比较不同自动语音识别模型的性能，并在减少识别错误和提高性能方面效果显著。

Jun, 2023

生成文本的无参考评估的局限性

我们的研究表明：参考文本的自由度量在评估生成文本方面存在固有的偏见和限制，因此建议将其作为分析和理解模型行为的诊断工具，而不是评估模型任务表现的指标。

Oct, 2022

图像字幕的透明人工评估

本文介绍了一种基于机器和人生成的 MSCOCO 数据集上的图像标注模型的评估协议 THumB，用于评估图像文本的质量。我们的实验发现，使用图像特征的近期度量值 CLIPScore 更符合人类评判标准。

Nov, 2021