AAAIJan, 2019

阅读,观看和移动:用强化学习将自然语言描述与视频时序地联系起来

TL;DR本文通过强化学习和多任务学习建立一个分阶段调整临时定位边界的代理模型,在考虑附加边界信息的训练过程中稳步提高绩效,达到了 ActivityNet'18 DenseCaption 和 Charades-STA 数据集上的最优性能。