SPICE:语义命题图像字幕评估
本研究提出了一种自动评估度量 ——JaSPICE,根据场景图评估日语字幕,并通过依赖关系和谓语 - 论元结构生成场景图,并使用同义词扩展图。实验结果表明,我们的度量方法在与人工评估的相关系数方面超过基准度量方法。
Nov, 2023
本文通过实证实验对现代的图像标注系统和评价指标进行了分析,并引入了一种新的独特度度量标准 SPICE-U,该标准通过使用对象探测器以及使用相互信息作为重新排序目标来改善现有的标注模型。
Sep, 2020
本文提出了一种基于策略梯度方法的优化算法,用于改进图像标题生成质量评估的 SPICE 和 CIDEr 指标的线性组合 SPIDEr,实验表明该算法优于之前的 MIXER 算法,并且使得使用 SPIDEr 指标训练的生成的图像标题比使用 MLE 或 COCO 指标训练的更受人类评估者欢迎。
Dec, 2016
本文提出了一种基于语义伪标签的图像聚类框架,使用两种语义感知的伪标签算法进行自监督学习来测量特征相似性和聚类差异,并成功将无监督分类与有监督分类之间的差距缩小,实现了图像聚类的新突破。
Mar, 2021
本研究提出了一种基于计算话语理论的生成度量,用于评估图像描述生成模型的语义和语用成功,与最近提出的学习指标相比,在人类评分预测方面表现更好。
Sep, 2021
通过将多模态输入与先前的语境相结合,我们介绍了一种称为 SPICE 的任务,旨在提高人工智能代理程序的上下文意识。SPICE 不仅仅是传统语义解析,还提供了一种结构化、可解释的框架,用于根据新信息动态更新代理程序的知识,反映人类沟通的复杂性。我们开发了 VG-SPICE 数据集,旨在通过口语对话交换中的视觉场景图构建来挑战代理程序,并突出了语音和视觉数据的整合。我们还介绍了用于 VG-SPICE 的音频 - 视觉对话场景解析器 (AViD-SP)。这些创新旨在改进多模态信息处理和整合。VG-SPICE 数据集和 AViD-SP 模型均已公开提供。
Jun, 2024
本文提出了一种新的度量图像标题多样性的指标,并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量,结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距,并且优化准确度(CIDEr)的模型的多样性很低,同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。
Mar, 2019
本文提出了两种关联度度量指标,并提出一种新的策略用于定义语义自适应边缘,并将其用于标准三元组损失函数的优化中,从而在有限的训练数据情况下得到了很大的改进。
Oct, 2021
研究了一种生成序列图像以可视化故事的任务,提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型,并提供了相应的评价指标和对这些指标的直观检验。
May, 2021