利用 ConViT 进行静态图像中的人类动作识别

Jul, 2023

利用 ConViT 进行静态图像中的人类动作识别

Human Action Recognition in Still Images Using ConViT

Seyed Rohollah Hosseyni, Hasan Taheri, Sanaz Seyedin, Ali Ahmad Rahmani

TL;DR通过引入 Vision Transformer（ViT）作为卷积层，本文提出了一种新的模块，用于在图像中提取各个区域之间的关系，并将其应用于动作识别模型，实现了在 Stanford40 和 PASCAL VOC 2012 行为数据集上达到了分别达到了 95.5% mAP 和 91.5% mAP 的结果，可与其他最先进的方法相媲美。

Abstract

Understanding the relationship between different parts of the image plays a crucial role in many visual recognition tasks. Despite the fact that

relationship convolutional neural networks vision transformer action recognition image

发现论文，激发创造

从 CNN-Transformer 模型中提取知识，以增强人类动作识别

通过知识蒸馏以及结合 CNN 和 ViT 模型，本研究旨在改善人体动作识别的性能和效率，从较大的教师模型向较小的学生模型传递知识，并通过引入 Transformer 视觉网络作为学生模型以及卷积网络作为教师模型，扩展了对局部图像特征和全局特征的关注，进而显著提升了动作识别的准确性和平均精度。

Nov, 2023

ConViViT — 一种结合卷积和分解注意力的深度神经网络用于人体活动识别

提出了一种融合了 Transformer 架构和 CNN 网络的新型混合架构，用于通过 RGB 视频进行活动识别，该架构通过使用 CNN 网络增强视频表示，然后将其传递给 Transformer 来提取时空标记，从而实现了新的 SOTA 结果。

Oct, 2023

基于图像卷积神经网络特征的动作识别

本文介绍一种基于卷积神经网络的层级模型，用于动作识别任务。该模型采用最后一层卷积神经网络的输出特征作为基础，并设计了一个层级结构来捕获视频中的时间变化。同时，作者引入了一种用于提取视频关键帧的方法，从而提高了模型的性能表现。通过在多个动作数据集上的实验结果表明，该方法在动作识别任务上取得了优越的性能表现。

Dec, 2015

使用深度学习方法和单帧 CNN 及卷积 LSTM 进行人类活动识别

本文探讨了基于深度学习的两种方法 —— 单帧卷积神经网络和卷积长短时记忆，以实现从视频中识别人类行为，同时在 UCF50 数据集和实验数据集上对两个模型进行了评估，结果表明单帧 CNN 模型的准确性优于卷积 LSTM 模型。

Apr, 2023

视频数据中人类行为识别的深度学习方法

通过对深度学习模型的全面分析，这项研究揭示了卷积神经网络、循环神经网络和两流卷积神经网络在人体动作识别中的优势和性能差异，并强调了综合模型在实现强大的人体动作识别方面的潜力和优化的研究方向。

Mar, 2024

ActNetFormer：半监督视频动作识别的 Transformer-ResNet 混合方法

提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法，其中结合 3D 卷积神经网络（3D CNN）和视频变换器（VIT）的独特方法能够有效捕捉行为的局部和全局上下文信息，从而在标记数据的一小部分情况下实现了卓越的性能。

Apr, 2024

行动识别的长期时间卷积

通过使用长时序卷积神经网络和高质量的光流估计，该研究获得了 UCF101 和 HMDB51 数据集上最先进的人类动作识别结果，具备良好的行为表示和准确性。

Apr, 2016

基于卷积神经网络的基于骨架的人体动作识别

本文探讨了基于骨架的动作识别在人类动作识别数据集方面的优势，以及深度学习算法在该领域中的应用。同时，研究表明，通过适当的训练技巧、数据增强和优化器，卷积神经网络可以达到与图神经网络相媲美的效果。实验在 NTU-60 数据集上取得了 95% 的准确度。

Jan, 2023

动作识别：从静态数据集到移动机器人

通过利用 “提议（proposals）” 方法生成行为区域的模型训练，能够在无约束视频中实现人的行为识别，无论是否存在摄像头运动；该方法在两个新的数据集中取得了超越最先进技术的性能，同时在异常行为检测场景中取得较高的成功率。

Jan, 2017

基于卷积神经网络的基础动作识别

本文提出了一种基于卷积神经网络的框架用于骨骼动作识别，通过自动选择重要的骨骼节点和提取时间段提案进行动作分类和检测，在 NTU RGB + D 数据集上获得了 89.3％的验证准确性和 93.7％的 mAP。

Apr, 2017