ECCVJan, 2020

TVR: 视频字幕时刻检索大规模数据集

TL;DR本研究介绍了一种新的多模式检索数据集,名为电视节目检索 (TVR),它结合了视频和相关的字幕文本,其中包含 109K 个查询,每个查询与一个精确的时间窗口相关联,并且具有指示查询与视频或字幕相关性的查询类型标签。我们还提出了多模态时刻检索任务的一种新型跨模态时刻定位网络 (XML),该模型采用了一种新颖的卷积起始和结束检测器 (ConvSE) 模型,具有更好的效率和性能。同时,我们还收集了描述 TVR 中各个标注时刻的相关信息,形成了一个新的多模式字幕数据集 TVC,两个数据集均可以公开获取。