ActNetFormer：半监督视频动作识别的 Transformer-ResNet 混合方法

Apr, 2024

ActNetFormer：半监督视频动作识别的 Transformer-ResNet 混合方法

ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos

Sharana Dharshikgan Suresh Dass, Hrishav Bakul Barua, Ganesh Krishnasamy, Raveendran Paramesran, Raphael C.-W. Phan

TL;DR提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法，其中结合 3D 卷积神经网络（3D CNN）和视频变换器（VIT）的独特方法能够有效捕捉行为的局部和全局上下文信息，从而在标记数据的一小部分情况下实现了卓越的性能。

Abstract

Human action or activity recognition in videos is a fundamental task in computer vision with applications in surveillance and monitoring, self-driving cars, sports analytics, human-robot interaction and many more. Traditional supervised methods require large annotated datasets for trai

human action recognition computer vision semi-supervised learning contrastive learning video representation

发现论文，激发创造

视频动作转换网络

本文介绍了行动转换器模型用于识别和定位视频剪辑中的人类动作，使用 Transformer 风格的架构聚合人物周围的时空背景特征，通过高分辨率、个性化、类别不可知的查询，该模型自动学习跟踪个人并从他人的动作中获取语义上下文

Dec, 2018

Act-VIT：使用 Vision Transformer 进行基于骨架的动作识别的表征稳健注意力架构

本文研究了基于骨架的动作识别中视觉 transformers 的有效性以及其在伪图像表示方案上的鲁棒性，并提出了一个三级体系结构 Act-VIT，通过应用分类器，在每个表示上合并其结果以找到最终的动作类别。实验研究表明，相比于 CNN，视觉 transformers 对初始伪图像表示的敏感性较低，但是通过分类器的一致性仍然可以进一步提高识别性能。

Nov, 2023

从 CNN-Transformer 模型中提取知识，以增强人类动作识别

通过知识蒸馏以及结合 CNN 和 ViT 模型，本研究旨在改善人体动作识别的性能和效率，从较大的教师模型向较小的学生模型传递知识，并通过引入 Transformer 视觉网络作为学生模型以及卷积网络作为教师模型，扩展了对局部图像特征和全局特征的关注，进而显著提升了动作识别的准确性和平均精度。

Nov, 2023

利用 ConViT 进行静态图像中的人类动作识别

通过引入 Vision Transformer（ViT）作为卷积层，本文提出了一种新的模块，用于在图像中提取各个区域之间的关系，并将其应用于动作识别模型，实现了在 Stanford40 和 PASCAL VOC 2012 行为数据集上达到了分别达到了 95.5% mAP 和 91.5% mAP 的结果，可与其他最先进的方法相媲美。

Jul, 2023

针对零样本动作识别的端到端语义视频变换器

本文提出了一种新的端到端训练 Transformer 模型的方法，能够高效地捕捉长期时空依赖性，在零样本学习方面获得了最新进展，通过避免训练和测试类之间的重叠，提出了一个新的实验设置方案，该方法在 UCF-101、HMDB-51 和 ActivityNet 数据集上的 top-1 准确性明显优于现有技术的水平。

Mar, 2022

ActionFormer：使用 Transformers 定位行为片段

ActionFormer 是一种基于 Transformer 网络的模型，采用了多尺度特征表示和本地自我注意力机制来识别视频中的动作。它在 THUMOS14 上取得了 71.0％ mAP，在 ActivityNet 1.3 和 EPIC-Kitchens 100 中也表现出色。

Feb, 2022

DirecFormer：一种基于 Transformer 的定向注意力方法用于鲁棒动作识别

通过引入有序时序学习问题和引入新的有向注意力机制，提出了一个新的基于 Transformer 的框架来解决行为识别问题，并在三个标准大规模基准测试上实现了与最近的行为识别方法相比的最先进的结果。

Mar, 2022

DiscrimNet：利用生成对抗网络进行视频半监督行为识别

本论文提出一种基于生成对抗网络的动作识别框架，使用大规模视频活动数据集上的深度卷积生成对抗网络（DCGAN）进行无监督学习，然后通过有标签数据集对已训练的鉴别器进行微调，实现准确识别人类活动的半监督学习。其中本文找到了好的网络架构和超参数以最大化鉴别器的效果。这种只使用外观信息的半监督学习方法达到了目前半监督动作识别方法，如 UCF101 和 HMDB51 等，的优劣表现。

Jan, 2018

基于 Actor-Transformers 的群体活动识别

本文提出一种基于 actor-transformer model 认知视频中的个人行为和组群活动的模型，并通过 2D 姿态网络和 3D CNN 等方式提供丰富的个人动态和静态信息表示，从而在公开数据集上取得了显著的效果。

Mar, 2020

ConViViT — 一种结合卷积和分解注意力的深度神经网络用于人体活动识别

提出了一种融合了 Transformer 架构和 CNN 网络的新型混合架构，用于通过 RGB 视频进行活动识别，该架构通过使用 CNN 网络增强视频表示，然后将其传递给 Transformer 来提取时空标记，从而实现了新的 SOTA 结果。

Oct, 2023