重新评估图像字幕自动评估指标
本文探讨了自然语言处理中,现有的语言生成系统的自动评估指标的局限性,提出了一些应该受到更多关注的失败案例,鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。
Oct, 2020
本文研究评估文本生成系统的评价指标,提出了基于语义而非形式的指标 MoverScore,并通过多项任务的验证表明采用上下文表示和距离测度相结合的方法可以取得最佳表现,该指标具有较强的泛化能力,并已提供 Web 服务方便使用。
Sep, 2019
本研究提出了一种基于计算话语理论的生成度量,用于评估图像描述生成模型的语义和语用成功,与最近提出的学习指标相比,在人类评分预测方面表现更好。
Sep, 2021
评估了 CLIPScore 和 UMIC 这两种自动评估图像标题的参考无关度量标准的鲁棒性,发现这两个指标在识别标题中的微小差错方面存在一定困难,同时受视觉概念和语言结构的影响。
May, 2023
人们对从自然语言描述中生成基于骨架的人类动作越来越感兴趣。本文系统地研究了哪些度量标准与人类评价最为相关,并提出了新的度量标准,这些度量标准与人类判断之间的相关性更好。通过对样本水平的人类评价,发现目前用于此任务的度量标准中没有一个与人类判断呈现中度甚至更高的相关性。然而,用于评估模型平均性能的常用度量标准(例如 R-Precision)和较少使用的坐标误差表现出了较强的相关性。此外,与其他替代方法相比,不推荐使用一些最近开发的度量标准,因为它们与人类判断的相关性较低。我们还引入了一种基于多模态 BERT 模型 MoBERT 的新度量标准,该度量标准在样本级别上与人类判断高度相关,并且在模型级别上具有近乎完美的相关性。我们的结果表明,这种新度量标准比当前所有替代方案都有广泛的优势。
Sep, 2023
本文提出了一种新的度量图像标题多样性的指标,并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量,结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距,并且优化准确度(CIDEr)的模型的多样性很低,同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。
Mar, 2019
本研究旨在通过比较和重新加权计算一组相似图像来提高图像字幕的独特性。我们提出了一种称为 CIDErBtw 的独特性度量,用于衡量字幕与类似图像的独特性,并在训练期间重新加权了每个人工注释,以提高生成的字幕的独特性和准确性。
Apr, 2022
本文介绍了一种基于机器和人生成的 MSCOCO 数据集上的图像标注模型的评估协议 THumB,用于评估图像文本的质量。我们的实验发现,使用图像特征的近期度量值 CLIPScore 更符合人类评判标准。
Nov, 2021
该研究提出了一种新的图像字幕评价指标 InfoMetIC,可以对图像字幕的正确性和覆盖性进行精细和粗略级别的评估,表现出比现有指标更好的人工判断相关性,同时还构建了一个基于令牌的评估数据集。
May, 2023