Jan, 2020

更加注重细节:视频中句子的弱监督时间根据地

TL;DR本文研究了弱监督下的视频句子时间定位问题,提出了一个两阶段模型,通过多尺度滑动窗口形成时间片段的间隔性建议,和在特征空间进行粗细匹配定位,最终在 ActivityNet Captions 数据集和 Charades-STA 数据集上取得良好的表现。