走向对图片的独特和信息丰富的字幕

ECCVSep, 2020

走向对图片的独特和信息丰富的字幕

Towards Unique and Informative Captioning of Images

Zeyu Wang, Berthy Feng, Karthik Narasimhan, Olga Russakovsky

TL;DR本文通过实证实验对现代的图像标注系统和评价指标进行了分析，并引入了一种新的独特度度量标准 SPICE-U，该标准通过使用对象探测器以及使用相互信息作为重新排序目标来改善现有的标注模型。

Abstract

Despite considerable progress, state of the art image captioning models produce generic captions, leaving out important image details. Furthermore, these systems may even misrepresent the image in order to produce a simpler caption consisting of common concepts. In this paper, we first

image captioning evaluation metrics spice-u object detectors mutual information

发现论文，激发创造

SPICE：语义命题图像字幕评估

提出了基于场景图谱的自动生成图像标题评估指标 SPICE，其捕捉人类判断模型生成标题的能力优于现有指标，并能回答哪个标题生成器更懂颜色和能否计数等问题。

Jul, 2016

学习评估图像字幕生成

提出了一种基于学习的区分性评价指标，通过数据扩增方案显著提高了评价指标对病态构造的鲁棒性，并在 FLickr 8k 和 COCO 数据集上对其他指标表现良好。

Jun, 2018

通过比较和重新加权进行独特图像字幕

本研究旨在通过比较和重新加权计算一组相似图像来提高图像字幕的独特性。我们提出了一种称为 CIDErBtw 的独特性度量，用于衡量字幕与类似图像的独特性，并在训练期间重新加权了每个人工注释，以提高生成的字幕的独特性和准确性。

Apr, 2022

关于图像标注中的多样性：如何像人类一样描述

本文提出了一种新的度量图像标题多样性的指标，并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量，结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距，并且优化准确度（CIDEr）的模型的多样性很低，同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。

Mar, 2019

图像描述中多样性 - 准确性平衡的分析

我们研究了不同的模型架构、训练目标、超参数设置和解码过程对自动生成图像标题多样性的影响，结果显示简单解码方法结合低温度是产生多样且准确的标题集的一种竞争性和快速方法；使用强化学习的 CIDEr-based 奖励训练会损害生成器的多样性，不能通过调整解码参数来缓解。此外，我们提出了一个新的指标 AllSPICE，通过一个单一的值来评估一组标题的准确性和多样性。

Feb, 2020

SPIDEr 策略梯度优化改进图像字幕生成

本文提出了一种基于策略梯度方法的优化算法，用于改进图像标题生成质量评估的 SPICE 和 CIDEr 指标的线性组合 SPIDEr，实验表明该算法优于之前的 MIXER 算法，并且使得使用 SPIDEr 指标训练的生成的图像标题比使用 MLE 或 COCO 指标训练的更受人类评估者欢迎。

Dec, 2016

通过 CLIP 引导的分组优化实现独特的图像字幕

本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述，引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准，并提出了一种简单有效的训练策略，通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性，通过与现有最先进的模型的性能比较，我们宣称我们的模型在独特性目标上达到了新的最先进水平。

Aug, 2022

JaSPICE：基于谓词 - 论元结构的自动评估度量方法用于图像字幕模型

本研究提出了一种自动评估度量 ——JaSPICE，根据场景图评估日语字幕，并通过依赖关系和谓语 - 论元结构生成场景图，并使用同义词扩展图。实验结果表明，我们的度量方法在与人工评估的相关系数方面超过基准度量方法。

Nov, 2023

用于训练描述性字幕的区分性目标

本文提出了一种改进图像标题生成方法的方法，通过在训练过程中加入与机器学习相关的损失函数来加强图像标题的区分度，从而提高生成标题的质量。

Mar, 2018

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020