Apr, 2017

使用带有空间-时间注意力的LR/RL LSTM进行视频填空

TL;DR本文提出了一种框架来解决视频中的句子填空问题,该框架使用两个分开的LSTM来编码左右句子片段,引入了一个新的结构,将每个片段与相反的片段对应的外部记忆组合起来,并使用端到端的空间和时间注意模型选择区分性视觉表示来找到缺失的单词,实验证明了所提出的方法在具有挑战性的VFIB问题上的卓越性能。