基于姿态注意力的手势人体动作识别
通过利用多模态视频数据,并提出使用两种方法来识别人类行为,包括使用卷积模型处理姿势流,由可调节关注机制控制图片流,最后经过 LSTM 神经网络对不同姿态下的处理进行特征提取,能够在多数据集上大幅度的提高人类行为识别的效果。
Mar, 2017
本研究提出了一种基于 RNNs 和 LSTM 的空间和时间关注模型,用于从骨架数据中识别人类动作,实验结果表明该模型在 SBU 和 NTU 数据集上均取得了很好的效果。
Nov, 2016
介绍了一种基于注意力机制的前馈神经网络,利用运动的重复性和历史上下文进行运动预测,通过图卷积网络对历史数据的运动模式进行有效利用,取得了三个数据集上最先进的结果。
Jun, 2021
本文提出一种基于 soft attention 的模型,用于对视频中的动作进行识别,该模型使用多层循环神经网络 (RNNs) 和长短期记忆 (LSTM) 单元,学习有选择地专注于视频帧的某些部分,通过几个瞥见来对视频进行分类。该模型主要学习帧中哪些部分与目标任务相关,并赋予它们更高的重要性。我们在 UCF-11 (YouTube Action)、HMDB-51 和 Hollywood2 数据集上评估了该模型,并分析了模型在不同场景和不同动作下注意力的聚焦。
Nov, 2015
通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性,并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签,模型不仅提高了准确性,还能时空自动定位区分性区域。
Oct, 2018
本文提出 Hierarchical Attention Network(HAN)用于实现复杂的人类行为理解。该模型可以同时融合视频的静态空间信息,短期运动信息和长期视频时间结构,并利用多步骤空间时间关注机制来自动学习视频帧中的重要区域和时间片段,最终在标准的视频行为基准测试中显著优于现有技术。
Jul, 2016
本文介绍了 Action Transformer,一种简单的完全自注意力架构,在人体动作识别中表现出色,并利用 2D 姿势表示来提供低延迟解决方案,此外我们提供了 MPOSE2021,这是一个新的大规模数据集,用于实时、短时 HAR 的训练和评估基准建立。
Jul, 2021
本文通过基于自注意力机制的神经网络模型,有效地解决了从身体穿戴传感器数据中提取人类活动的空间和时间序列信号依赖性识别的问题,并在四个流行的 HAR 数据集上进行了大量实验,获得了显著的性能改进。
Mar, 2020
本文提出了一种基于注意力机制的人体形状和运动动力学的识别模型,用于在没有 RGB 信息的情况下对人员身份进行识别。该模型利用独特的 4D 时空特征,采用卷积和循环神经网络相结合的形式,目标是识别代表人类身份的小的、具有区分性的区域。结果表明,该模型能够在多个公开数据集上产生当今最先进的结果。同时,本文还对该模型在视角、外貌和容积变化方面的鲁棒性进行了研究,并分享了该模型时空注意力的可解释的可视化结果。
Nov, 2016