提出了基于场景图谱的自动生成图像标题评估指标 SPICE,其捕捉人类判断模型生成标题的能力优于现有指标,并能回答哪个标题生成器更懂颜色和能否计数等问题。
Jul, 2016
本研究提出了一种自动评估度量 ——JaSPICE,根据场景图评估日语字幕,并通过依赖关系和谓语 - 论元结构生成场景图,并使用同义词扩展图。实验结果表明,我们的度量方法在与人工评估的相关系数方面超过基准度量方法。
Nov, 2023
本文通过实证实验对现代的图像标注系统和评价指标进行了分析,并引入了一种新的独特度度量标准 SPICE-U,该标准通过使用对象探测器以及使用相互信息作为重新排序目标来改善现有的标注模型。
Sep, 2020
本文介绍了一种基于机器和人生成的 MSCOCO 数据集上的图像标注模型的评估协议 THumB,用于评估图像文本的质量。我们的实验发现,使用图像特征的近期度量值 CLIPScore 更符合人类评判标准。
Nov, 2021
本文提出了一种新的度量图像标题多样性的指标,并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量,结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距,并且优化准确度(CIDEr)的模型的多样性很低,同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。
Mar, 2019
本文通过一系列的实验,深入评估了现有的图像字幕度量,并探索了最近提出的 Word Mover's Distance(WMD)文档度量在图像字幕中的应用。结果表明,WMD 相比其他度量具有较强的优势。
Dec, 2016
本研究旨在通过比较和重新加权计算一组相似图像来提高图像字幕的独特性。我们提出了一种称为 CIDErBtw 的独特性度量,用于衡量字幕与类似图像的独特性,并在训练期间重新加权了每个人工注释,以提高生成的字幕的独特性和准确性。
Apr, 2022
本研究提出了一种基于计算话语理论的生成度量,用于评估图像描述生成模型的语义和语用成功,与最近提出的学习指标相比,在人类评分预测方面表现更好。
Sep, 2021
本文提出了一种基于策略梯度方法的优化算法,用于改进图像标题生成质量评估的 SPICE 和 CIDEr 指标的线性组合 SPIDEr,实验表明该算法优于之前的 MIXER 算法,并且使得使用 SPIDEr 指标训练的生成的图像标题比使用 MLE 或 COCO 指标训练的更受人类评估者欢迎。
评估了 CLIPScore 和 UMIC 这两种自动评估图像标题的参考无关度量标准的鲁棒性,发现这两个指标在识别标题中的微小差错方面存在一定困难,同时受视觉概念和语言结构的影响。
May, 2023