AAAIJan, 2024

TR-DETR: 具有任务互逆性的 Transformer 模型,用于联合出现时刻检索和摘要提取

TL;DR基于自然语言查询的视频时刻检索(MR)和精彩片段检测(HD)是两个高度相关的任务,目标是获取视频中的相关时刻和每个视频片段的精彩得分。本文提出了一种基于 DETR 的任务互补变换器(TR-DETR),专注于探索 MR 和 HD 之间的内在互补性。实验表明,TR-DETR 优于现有的最先进方法。