Jul, 2021

QVHighlights: 通过自然语言查询识别视频中的时刻和亮点

TL;DR本篇研究提出了基于问题的视频亮点(QVHIGHLIGHTS)数据集,用于开发和评估系统以检测有关时刻以及突出亮点,同时使用 Moment-DETR,一个转换器编码器 - 解码器模型,将时刻检索视为直接预测问题,并且在利用 ASR 注释和进行弱监督预训练时表现出优异的性能。