Feb, 2022

利用 Transformer 进行深度足球描述:数据集、语义相关损失和多级评估

TL;DR本文通过深度学习为足球视频生成标题,并介绍了一个包含 22k 个标题 - 视频剪辑对和三种视觉特征(图像、光流和修复)的数据集,使用 transformer、ConvNets 和视觉语言特征融合的模型生成标题,并在句法、语义和语料库三个层面上评估生成的标题。研究表明,使用更多视觉特征和注重选择词汇语义的损失可以提高生成标题的多样性和评分。