关于图像标注中的多样性：如何像人类一样描述

CVPRMar, 2019

关于图像标注中的多样性：如何像人类一样描述

Describing like humans: on diversity in image captioning

Qingzhong Wang, Antoni B. Chan

TL;DR本文提出了一种新的度量图像标题多样性的指标，并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量，结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距，并且优化准确度（CIDEr）的模型的多样性很低，同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。

Abstract

Recently, the state-of-the-art models for image captioning have overtaken human performance based on the most popular metrics, such as BLEU, METEOR, ROUGE, and CIDEr. Does this mean we have solved the task of

image captioning metrics diversity latent semantic analysis reinforcement learning

发现论文，激发创造

图像描述中多样性 - 准确性平衡的分析

我们研究了不同的模型架构、训练目标、超参数设置和解码过程对自动生成图像标题多样性的影响，结果显示简单解码方法结合低温度是产生多样且准确的标题集的一种竞争性和快速方法；使用强化学习的 CIDEr-based 奖励训练会损害生成器的多样性，不能通过调整解码参数来缓解。此外，我们提出了一个新的指标 AllSPICE，通过一个单一的值来评估一组标题的准确性和多样性。

Feb, 2020

通过比较和重新加权进行独特图像字幕

本研究旨在通过比较和重新加权计算一组相似图像来提高图像字幕的独特性。我们提出了一种称为 CIDErBtw 的独特性度量，用于衡量字幕与类似图像的独特性，并在训练期间重新加权了每个人工注释，以提高生成的字幕的独特性和准确性。

Apr, 2022

比较与重新加权：使用相似图像集进行独特的图像字幕

通过 CIDErBtw 度量图片独特性，结合带权损失函数和强化学习奖励等多种训练策略，本文提出了一种改进的图像描述生成方法，实验证明该方法显著提高了描述独特性和准确性。

Jul, 2020

标题：字幕中的内容？数据集特定的语言多样性及其对视觉描述模型和度量的影响

研究自动视频描述领域的发展，发现数据集所具有的语言多样性是影响生成泛化性通用和无信息的描述文本的关键因素。推荐多样性采集新数据的方法和应对当前模型和指标多样性有限的后果的方法和方法。

May, 2022

学习评估图像字幕生成

提出了一种基于学习的区分性评价指标，通过数据扩增方案显著提高了评价指标对病态构造的鲁棒性，并在 FLickr 8k 和 COCO 数据集上对其他指标表现良好。

Jun, 2018

走向对图片的独特和信息丰富的字幕

本文通过实证实验对现代的图像标注系统和评价指标进行了分析，并引入了一种新的独特度度量标准 SPICE-U，该标准通过使用对象探测器以及使用相互信息作为重新排序目标来改善现有的标注模型。

Sep, 2020

基于跨模态相似性的课程学习在图像描述中的应用

该研究提出一种基于跨模态相似性的难度度量方法，用于图像字幕生成模型的训练，并在 COCO 和 Flickr30k 数据集上验证了其有效性，证明其在难样本和未见数据上表现出较高的泛化能力。

Dec, 2022

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

CIDEr：基于共识的图像描述评估

本文提出了一种基于人类共识的评估图像描述的新方法，包括新的基于三元组的人类注释方法、一种捕捉共识的新自动化指标（CIDEr）和包含 50 个对每个图像进行描述的句子的两个新数据集（PASCAL-50S 和 ABSTRACT-50S）。使用这种新协议评估了五种最先进的图像描述方法，并提供了未来比较的基准。

Nov, 2014

COSMic: 一个针对图像描述的一致性感知生成度量

本研究提出了一种基于计算话语理论的生成度量，用于评估图像描述生成模型的语义和语用成功，与最近提出的学习指标相比，在人类评分预测方面表现更好。

Sep, 2021