动作识别的知识融合网络

AAAIFeb, 2020

Knowledge Integration Networks for Action Recognition

Shiwen Zhang, Sheng Guo, Limin Wang, Weilin Huang, Matthew R. Scott

TL;DR本文提出了一种基于知识集成网络（KINet）的视频动作识别框架，该框架利用人体信息和场景上下文的有意义特征，设计了一个三支架构最终能够有效识别动作，提供了最先进的性能表现，并且进行了在 UCF-101 上的迁移学习，能够达到 97.8% 的高准确率。

Abstract

In this work, we propose knowledge integration networks (referred as KINet) for video action recognition. KINet is capable of aggregating meaningful →

knowledge integration networks video action recognition context features human and scene recognition state-of-the-art performance

发现论文，激发创造

三流网络用于增强动作识别

该论文提出了两种基于 CNN 的体系结构，包括三种流，可以分别捕捉不同速率的空间和时间信息，并使用双向 LSTM 和注意力机制进一步提高模型性能，实现了人类动作识别任务的最先进表现。

Apr, 2021

行动识别的未来何去何从？一种新模型及动力学数据集

本研究基于 Kinetics 数据集重新评估最先进的体系结构，并引入一种新的双流膨胀 3D ConvNet（I3D），该 ConvNet 可以在视频中学习无缝的时空特征提取器，利用成功的 ImageNet 架构设计及其参数，经过在 Kinetics 上的预训练后，I3D 模型在动作分类方面表现明显提高。

May, 2017

基于关键点的视频理解中，学习更高阶的物体交互

本文介绍了一种名为 KeyNet 的行动定位方法，仅利用基于目标的关键点数据来捕获场景中的上下文，从而在不使用任何 RGB 信息的情况下从对象和人类关键点中建立结构化中间表示，演示了如何从对象关键点中建模以恢复使用 AVA、动力学数据集上的关键点信息造成的上下文损失。

May, 2023

基于骨架的多粒度时空图神经网络学习用于动作识别

本文提出了一种新的基于骨架的动作分类方法，使用多层次空间时间图网络联合建模粗粒度和细粒度骨架运动模式，并采用双头图网络和跨头部通信策略来提取两个时空分辨率的特征，实验证明该方法在三个大规模数据集上取得了最先进的性能。

Aug, 2021

BiCnet-TKS: 学习视频人物再识别的高效时空表示

本文提出了一种高效的时空表示方法 BiCnet-TKS，并通过在原始分辨率和下采样策略上处理连续帧以获取目标身份的全面特征；该模型包含多个并行的和多样化的注意力模块以发现连续帧的不同部位，在任何深度插入 TKS 模块以捕捉短期和长期的时间关系，并在多个基准测试中取得优于先前研究的结果。

Apr, 2021

基于共生的图神经网络用于 3D 骨架人类动作识别和运动预测

该论文提出了一种共生图神经网络模型来解决三维骨架动作识别和运动预测两个问题，并采用双骨图和多尺度图卷积网络提取空间和时间特征以及捕捉身体结构之间的关系，实验结果表明，该模型的表现优于现有方法。

Oct, 2019

利用姿态、动作和外观进行动作分类和检测的串联多流网络

本文提出了一种网络体系结构，计算和整合了人类动作识别中最重要的视觉线索：姿态，运动和原始图像，并引入了马尔科夫链模型进行融合，在 HMDB51，J-HMDB 和 NTU RGB+D 数据集上达到最先进的动作分类性能和在 UCF101 和 J-HMDB 数据集上达到最先进的时空动作定位结果。

Apr, 2017

ActNetFormer：半监督视频动作识别的 Transformer-ResNet 混合方法

提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法，其中结合 3D 卷积神经网络（3D CNN）和视频变换器（VIT）的独特方法能够有效捕捉行为的局部和全局上下文信息，从而在标记数据的一小部分情况下实现了卓越的性能。

Apr, 2024

基于语言知识辅助的骨骼动作识别表示学习

研究了人类理解和识别他人动作的复杂神经科学问题，提出了一种利用大规模语言模型知识辅助的图卷积网络（LA-GCN）来进行骨架动作识别，采用先验全局关系和先验类别关系提供额外监督，另外使用多跳注意力图卷积以提高拓扑建模中的信息传递效率。在 NTU RGB+D，NTU RGB+D 120 和 NW-UCLA 数据集上实现了最先进的结果。

May, 2023

从 CNN-Transformer 模型中提取知识，以增强人类动作识别

通过知识蒸馏以及结合 CNN 和 ViT 模型，本研究旨在改善人体动作识别的性能和效率，从较大的教师模型向较小的学生模型传递知识，并通过引入 Transformer 视觉网络作为学生模型以及卷积网络作为教师模型，扩展了对局部图像特征和全局特征的关注，进而显著提升了动作识别的准确性和平均精度。

Nov, 2023