使用视觉注意力进行动作识别

Nov, 2015

Action Recognition using Visual Attention

Shikhar Sharma, Ryan Kiros, Ruslan Salakhutdinov

TL;DR本文提出一种基于 soft attention 的模型，用于对视频中的动作进行识别，该模型使用多层循环神经网络 (RNNs) 和长短期记忆 (LSTM) 单元，学习有选择地专注于视频帧的某些部分，通过几个瞥见来对视频进行分类。该模型主要学习帧中哪些部分与目标任务相关，并赋予它们更高的重要性。我们在 UCF-11 (YouTube Action)、HMDB-51 和 Hollywood2 数据集上评估了该模型，并分析了模型在不同场景和不同动作下注意力的聚焦。

Abstract

We propose a soft attention based model for the task of action recognition in videos. We use multi-layered Recurrent Neural Networks (RNNs) with Long Short-Term Memory (LSTM) units which are deep both spatially a

soft attention action recognition multi-layered rnns lstm units video frames

发现论文，激发创造

多层深度特征联合关注的动作识别

该研究提出了一种新颖的深度监督神经网络模型，利用了视觉跟踪，并结合了深度卷积神经网络（CNN）和循环神经网络（RNN）的鲁棒性来进行视频动作识别任务。研究结果表明，该模型在 UCF101 和 HMDB51 这两个具有挑战性的数据集上表现出色，仅使用卷积特征就可以达到最先进的水平。

Jul, 2016

可解释的时空注意力视频动作识别

通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性，并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签，模型不仅提高了准确性，还能时空自动定位区分性区域。

Oct, 2018

视频数据中人类行为识别的深度学习方法

通过对深度学习模型的全面分析，这项研究揭示了卷积神经网络、循环神经网络和两流卷积神经网络在人体动作识别中的优势和性能差异，并强调了综合模型在实现强大的人体动作识别方面的潜力和优化的研究方向。

Mar, 2024

用于 3D 视频中动作识别的双流 RNN/CNN

本论文提出了一种通过将循环神经网络和卷积神经网络相结合运用于动作识别的算法，通过 SVM 对特征进行分类，实验结果表明，在标准数据集上，该算法提高了 14% 的识别率。

Mar, 2017

一种基于时空注意力机制的人体动作识别端到端模型（来自骨架数据）

本研究提出了一种基于 RNNs 和 LSTM 的空间和时间关注模型，用于从骨架数据中识别人类动作，实验结果表明该模型在 SBU 和 NTU 数据集上均取得了很好的效果。

Nov, 2016

基于格子长短期记忆的人类动作识别

L2STM 是一种通过学习独立的隐藏状态转移来增强模型的时间动力学建模能力以及解决长期时间动态不稳定的问题的方法，结合多模态训练程序，在人类动作识别方面表现优于现有的基于 LSTM 和 / 或 CNN 的方法。

Aug, 2017

VideoLSTM 卷积、注意和流用于动作识别

该研究提出了一种适用于视频动作的端对端序列学习的新型结构，名为 VideoLSTM。通过硬连线卷积和基于动作的关注力，结合仅动作类别标签的注意力，VideoLSTM 能够用于动作本地化，并在行为分类和本地化的挑战数据集上进行实验和比较。

Jul, 2016

基于姿态注意力的手势人体动作识别

本研究提出一种基于时空注意力机制的人体动作识别方法，采用外部信息（人的姿态）提取注意力分布，采用 RNN 实现注意力的递归处理，以实现自动关注动作中最活跃的手部，并检测最具区分度的动作要素，并在 NTU-RGB + D 数据集上获得最先进的结果。

Dec, 2017

视频动作识别的分层注意力网络

本文提出 Hierarchical Attention Network（HAN）用于实现复杂的人类行为理解。该模型可以同时融合视频的静态空间信息，短期运动信息和长期视频时间结构，并利用多步骤空间时间关注机制来自动学习视频帧中的重要区域和时间片段，最终在标准的视频行为基准测试中显著优于现有技术。

Jul, 2016

针对人类动作识别的姿态条件的时空关注

通过利用多模态视频数据，并提出使用两种方法来识别人类行为，包括使用卷积模型处理姿势流，由可调节关注机制控制图片流，最后经过 LSTM 神经网络对不同姿态下的处理进行特征提取，能够在多数据集上大幅度的提高人类行为识别的效果。

Mar, 2017