Jun, 2017

具有调整时序注意力的分层 LSTM 用于视频字幕生成

TL;DR通过引入 hierarchical LSTM 和 adjusted temporal attention 的方式,利用 temporal attention 来选择特定的帧来预测相关的单词,并决定是否及如何利用视觉和语言上下文信息,以支持视频字幕生成的多层次模型设计,最终在 MSVD 和 MSR-VTT 数据集上优于现有方法。