SPICE：语义命题图像字幕评估

ECCVJul, 2016

SPICE: Semantic Propositional Image Caption Evaluation

Peter Anderson, Basura Fernando, Mark Johnson, Stephen Gould

TL;DR提出了基于场景图谱的自动生成图像标题评估指标 SPICE，其捕捉人类判断模型生成标题的能力优于现有指标，并能回答哪个标题生成器更懂颜色和能否计数等问题。

Abstract

There is considerable interest in the task of automatically generating image captions. However, evaluation is challenging. Existing automatic evaluation metrics are primarily sensitive to n-gram overlap, which is neither necessary nor sufficient for the task of simulating human judgment. We hypothesize that →

image caption generation automatic evaluation metrics human judgment simulation semantic propositional content spice

发现论文，激发创造

JaSPICE：基于谓词 - 论元结构的自动评估度量方法用于图像字幕模型

本研究提出了一种自动评估度量 ——JaSPICE，根据场景图评估日语字幕，并通过依赖关系和谓语 - 论元结构生成场景图，并使用同义词扩展图。实验结果表明，我们的度量方法在与人工评估的相关系数方面超过基准度量方法。

Nov, 2023

走向对图片的独特和信息丰富的字幕

本文通过实证实验对现代的图像标注系统和评价指标进行了分析，并引入了一种新的独特度度量标准 SPICE-U，该标准通过使用对象探测器以及使用相互信息作为重新排序目标来改善现有的标注模型。

Sep, 2020

学习评估图像字幕生成

提出了一种基于学习的区分性评价指标，通过数据扩增方案显著提高了评价指标对病态构造的鲁棒性，并在 FLickr 8k 和 COCO 数据集上对其他指标表现良好。

Jun, 2018

SPIDEr 策略梯度优化改进图像字幕生成

本文提出了一种基于策略梯度方法的优化算法，用于改进图像标题生成质量评估的 SPICE 和 CIDEr 指标的线性组合 SPIDEr，实验表明该算法优于之前的 MIXER 算法，并且使得使用 SPIDEr 指标训练的生成的图像标题比使用 MLE 或 COCO 指标训练的更受人类评估者欢迎。

Dec, 2016

SPICE: 图像聚类的语义伪标记

本文提出了一种基于语义伪标签的图像聚类框架，使用两种语义感知的伪标签算法进行自监督学习来测量特征相似性和聚类差异，并成功将无监督分类与有监督分类之间的差距缩小，实现了图像聚类的新突破。

Mar, 2021

COSMic: 一个针对图像描述的一致性感知生成度量

本研究提出了一种基于计算话语理论的生成度量，用于评估图像描述生成模型的语义和语用成功，与最近提出的学习指标相比，在人类评分预测方面表现更好。

Sep, 2021

基于多模态上下文语义解析的语音处理

通过将多模态输入与先前的语境相结合，我们介绍了一种称为 SPICE 的任务，旨在提高人工智能代理程序的上下文意识。SPICE 不仅仅是传统语义解析，还提供了一种结构化、可解释的框架，用于根据新信息动态更新代理程序的知识，反映人类沟通的复杂性。我们开发了 VG-SPICE 数据集，旨在通过口语对话交换中的视觉场景图构建来挑战代理程序，并突出了语音和视觉数据的整合。我们还介绍了用于 VG-SPICE 的音频 - 视觉对话场景解析器 (AViD-SP)。这些创新旨在改进多模态信息处理和整合。VG-SPICE 数据集和 AViD-SP 模型均已公开提供。

Jun, 2024

关于图像标注中的多样性：如何像人类一样描述

本文提出了一种新的度量图像标题多样性的指标，并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量，结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距，并且优化准确度（CIDEr）的模型的多样性很低，同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。

Mar, 2019

一张图片相当于五个句子吗？对于图像 - 文本匹配的语义进行新的探究

本文提出了两种关联度度量指标，并提出一种新的策略用于定义语义自适应边缘，并将其用于标准三元组损失函数的优化中，从而在有限的训练数据情况下得到了很大的改进。

Oct, 2021

通过语义一致性提升视觉故事的生成和评估

研究了一种生成序列图像以可视化故事的任务，提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型，并提供了相应的评价指标和对这些指标的直观检验。

May, 2021