MMSep, 2020
视频片段检索的逐帧跨模态匹配
Frame-wise Cross-modal Matching for Video Moment Retrieval
Haoyu Tang, Jihua Zhu, Meng Liu, Zan Gao, Zhiyong Cheng
TL;DR本文提出了一种基于交互建模的专注跨模态相关性匹配(ACRM)模型,用于预测时间边界,并通过内部帧进行模型训练以提高定位精度,通过在 TACoS 和 Charades-STA 数据集上进行的实验表明,ACRM 模型优于几种最先进的方法。