MMSep, 2020

视频片段检索的逐帧跨模态匹配

TL;DR本文提出了一种基于交互建模的专注跨模态相关性匹配(ACRM)模型,用于预测时间边界,并通过内部帧进行模型训练以提高定位精度,通过在 TACoS 和 Charades-STA 数据集上进行的实验表明,ACRM 模型优于几种最先进的方法。