May, 2023

通过自然语言查询进行联合时刻检索和高亮检测

TL;DR本计划提出了一种新方法,使用多模式 Transformer 进行基于自然语言查询的视频摘要和亮点检测,以匹配用户自然语言查询来检索视频中最相关和最有趣的时刻, 并在多个数据集上进行评估,如 YouTube 亮点和 TVSum。