CVPRMar, 2019

关于图像标注中的多样性:如何像人类一样描述

TL;DR本文提出了一种新的度量图像标题多样性的指标,并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量,结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距,并且优化准确度(CIDEr)的模型的多样性很低,同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。