Nov, 2015

使用视觉注意力进行动作识别

TL;DR本文提出一种基于 soft attention 的模型,用于对视频中的动作进行识别,该模型使用多层循环神经网络 (RNNs) 和长短期记忆 (LSTM) 单元,学习有选择地专注于视频帧的某些部分,通过几个瞥见来对视频进行分类。该模型主要学习帧中哪些部分与目标任务相关,并赋予它们更高的重要性。我们在 UCF-11 (YouTube Action)、HMDB-51 和 Hollywood2 数据集上评估了该模型,并分析了模型在不同场景和不同动作下注意力的聚焦。