无参考图像字幕评估指标的鲁棒性研究
自然语言和图片联合训练的 CLIP 模型可用于基于图像的字幕的评估过程中,而无需参考词,CLIPScore 作为一种新的无参考评估指标可以实现与人类判断的最高相关性。
Apr, 2021
本文提出了一种新的评估图像字幕的度量 UMIC,其通过对比学习不需要参考字幕。同时,我们发现以前的标准数据集在图像字幕度量方面存在关键问题,并对生成字幕进行了新的人类注释。在包括我们的新数据集在内的四个数据集上验证了 UMIC,证明了 UMIC 的相关性比所有需要多个参考文本度量的先前度量更高。我们发布了基准数据集和预训练模型以计算 UMIC。
Jun, 2021
本文介绍了一种基于机器和人生成的 MSCOCO 数据集上的图像标注模型的评估协议 THumB,用于评估图像文本的质量。我们的实验发现,使用图像特征的近期度量值 CLIPScore 更符合人类评判标准。
Nov, 2021
本研究提出使用基于大规模图像 - 文本对训练的多模态编码器 CLIP 计算多模态相似度并将其用作奖励函数来产生更加具有描述性和独特性的标题,同时证明使用 CLIP 奖励相较于传统奖励模板对于改善生成模型具有优势,并介绍了一种简单的 CLIP 文本编码器微调策略以提高语法。
May, 2022
评估文本描述与相应图像之间的兼容性是多模态研究中的核心工作之一。本文研究了无参考指标的不足之处,并提出了一种名为 “自我完善” 的新方法来纠正这些指标的不足,并通过 GPT-4V 评估生成的句子以获得最先进的性能。此外,我们还介绍了一个具有挑战性的评估基准来全面评估无参考图像描述度量标准。
Feb, 2024
该研究提出了一种新的图像字幕评价指标 InfoMetIC,可以对图像字幕的正确性和覆盖性进行精细和粗略级别的评估,表现出比现有指标更好的人工判断相关性,同时还构建了一个基于令牌的评估数据集。
May, 2023
通过使用 Concadia 数据集来更新 CLIP 模型,使用参数高效微调和基于因果可解释性的损失目标,以区分描述和标题,并获得盲人和弱视人群的判断,同时保持转移能力和可解释性结构。
Jun, 2024
CLAIR 是一种新颖方法,利用大型语言模型(LLMs)的零 - shot 语言建模能力来评估候选图像标题,与现有方法相比,CLAIR 在与人类判断相符的标题质量方面表现出更强的相关性,能够清晰解读结果与其分配的分数背后的推理过程。
Oct, 2023
本文提出了 Perturbation Robust Multi-Lingual CLIPScore (PR-MCS) 作为一种新型的无参考图像字幕度量标准,应用于多种语言,以确保对各种干扰类型的语言扰动具有高度鲁棒性。
Mar, 2023