CVPRNov, 2021

EMScore: 通过粗粒度和细粒度嵌入匹配评估视频字幕

TL;DR本研究提出一种基于嵌入匹配的视频字幕参照无关评估度量 EMS,结合粗细粒度的视频字幕匹配、基于大规模预训练模型的视觉语言嵌入等技术,更准确地衡量视频与候选字幕之间的相似度,并在 VATEX-EVAL 数据上进行了实验验证。