ICLRMar, 2020

Egoshots,自我视角记录生活数据集和语义保真度量,用于评估图像字幕模型中的多样性

TL;DR本文介绍用于图像字幕生成的数据集 Egoshots,并使用现有的预训练图像字幕和对象识别网络对其进行注释,展示现有作品的局限性;此外,还提出了一种新的图像字幕度量标准 SF,可以在没有注释的情况下评估生成的标题,使其对实际生活中产生的标题非常有用。