Apr, 2018

基于注意力位置回归的视频中语句的时序定位

TL;DR本篇论文提出一种基于注意力的位置回归(ABLR)方法,通过双向 LSTM 网络对视频和句子进行编码,并引入多模式协同注意力机制来预测句子查询的时间坐标,同时采用端到端的方式进行联合训练,以解决从全局视角下的时间句子定位问题,并在 ActivityNet Captions 和 TACoS 数据集上进行了全面的实验来验证该方法的有效性和效率。