ACLMay, 2023

MS-DETR:使用采样时刻交互实现自然语言视频定位

TL;DR本文旨在解决 Natural Language Video Localization(NLVL)的问题,通过提出 Moment Sampling DETR 算法,即基于提议的解决方案,生成候选时刻,并选择最佳匹配提议,同时使用可学习的模板进行多尺度视觉和语言编码,对数据集进行实验,提高了 MS-DETR 的准确性。