Sep, 2020

一种简单而有效的视频时间对齐方法,具有交叉模态注意力

TL;DR本文主要研究了利用语言引导定位视频中的相关片段的问题,提出一种简单直观的跨模态注意力模块 (CMA) 和针对此任务的新回归损失函数来提高定位精度,并在 Charades-STA 和 ActivityNet Captions 数据集上超越了目前最先进的方法。