Jul, 2016

视频动作识别的分层注意力网络

TL;DR本文提出 Hierarchical Attention Network(HAN)用于实现复杂的人类行为理解。该模型可以同时融合视频的静态空间信息,短期运动信息和长期视频时间结构,并利用多步骤空间时间关注机制来自动学习视频帧中的重要区域和时间片段,最终在标准的视频行为基准测试中显著优于现有技术。