ConViViT — 一种结合卷积和分解注意力的深度神经网络用于人体活动识别

Oct, 2023

ConViViT — 一种结合卷积和分解注意力的深度神经网络用于人体活动识别

ConViViT -- A Deep Neural Network Combining Convolutions and Factorized Self-Attention for Human Activity Recognition

Rachid Reda Dokkar, Faten Chaieb, Hassen Drira, Arezki Aberkane

TL;DR提出了一种融合了 Transformer 架构和 CNN 网络的新型混合架构，用于通过 RGB 视频进行活动识别，该架构通过使用 CNN 网络增强视频表示，然后将其传递给 Transformer 来提取时空标记，从而实现了新的 SOTA 结果。

Abstract

The transformer architecture has gained significant popularity in computer vision tasks due to its capacity to generalize and capture long-range dependencies. This characteristic makes it well-suited for generating spat

transformer architecture cnn network activity recognition spatiotemporal tokens sota results

发现论文，激发创造

利用 ConViT 进行静态图像中的人类动作识别

通过引入 Vision Transformer（ViT）作为卷积层，本文提出了一种新的模块，用于在图像中提取各个区域之间的关系，并将其应用于动作识别模型，实现了在 Stanford40 和 PASCAL VOC 2012 行为数据集上达到了分别达到了 95.5% mAP 和 91.5% mAP 的结果，可与其他最先进的方法相媲美。

Jul, 2023

使用参数优化的多阶段图卷积网络和 Transformer 模型进行人类活动识别的特征融合

使用深度学习模型（如卷积神经网络和 Transformer）进行人类活动识别，研究表明特征融合对于改善活动识别系统的准确性和稳健性具有重要意义。使用 HuGaDB、PKU-MMD、LARa 和 TUG 数据集，PO-MS-GCN 和 Transformer 模型在准确性上进行了训练和评估，PO-MS-GCN 模型在效果上优于其他先进模型，并且特征融合在不同数据集上改善了结果。

Jun, 2024

可重构卷积神经网络实现的三维人体活动识别

本文提出了一种基于 RGB-D 视频的自动活动识别的深度模型，使用 3D 卷积和最大池化算子，结合激活函数以及学习出活动的时间结构，该模型可以直接作用在原始输入上进行活动分类，而且还允许动态调整模型结构以适应人类活动的时间变化，并在挑战性场景下验证了该方法的优越性，同时还给出了一个大型的 RGB-D 视频人类活动数据库。

Jan, 2015

ActNetFormer：半监督视频动作识别的 Transformer-ResNet 混合方法

提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法，其中结合 3D 卷积神经网络（3D CNN）和视频变换器（VIT）的独特方法能够有效捕捉行为的局部和全局上下文信息，从而在标记数据的一小部分情况下实现了卓越的性能。

Apr, 2024

Vision Conformer：将卷积融入 Vision Transformer 层中

本研究通过将卷积神经网络与神经网络模型 Transformer 相结合，提出了一种名为 “Vision Conformer” 的模型，并通过实验证明了此模型对 ViT 图像识别能力的提升。

Apr, 2023

从 CNN-Transformer 模型中提取知识，以增强人类动作识别

通过知识蒸馏以及结合 CNN 和 ViT 模型，本研究旨在改善人体动作识别的性能和效率，从较大的教师模型向较小的学生模型传递知识，并通过引入 Transformer 视觉网络作为学生模型以及卷积网络作为教师模型，扩展了对局部图像特征和全局特征的关注，进而显著提升了动作识别的准确性和平均精度。

Nov, 2023

Vision Transformer 和卷积神经网络的视觉感知相似吗？

研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构，发现两种架构存在显著差异，其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外，预训练数据集规模会对中间特征和迁移学习产生影响。

Aug, 2021

卷积视觉转换器用于深度伪造视频检测

本文提出了一种使用卷积视觉 Transformer 及卷积神经网络架构用于检测 Deepfakes 的方法，并在 DeepFake Detection Challenge Dataset 上进行了实验，取得了 91.5％的准确度、0.91 的 AUC 值和 0.32 的损失值。

Feb, 2021

使用级联双注意力 CNN 和双向 GRU 框架的人体运动识别

本文提出了一种空间 - 时间级联框架，利用深度学习算法提取人类活动的深入特征，并使用双向 Gated 循环单元进行长期时间建模和人类行为识别。实验结果表明，该方法与现有算法相比在帧每秒的执行时间方面提高了最多 167 倍。

Aug, 2022

ConvTransformer: 用于视频帧合成的卷积变换器网络

本文提出了一种名为 ConvTransformer 的深层卷积神经网络结构，通过注意力机制学习序列数据之间的依赖关系，用于视频帧合成，相较于传统的卷积 LSTM 方法可实现更好的并行计算效果。

Nov, 2020