- 利用时空图卷积网络的迁移学习为视障人士提供的剧场辅助系统
本研究的目的是通过使用深度图像采集的骨架数据,创建一个剧场人类行为识别系统,以帮助视障人士和盲人。利用三种预训练的基于骨架的人类行为识别 Spatio-Temporal Graph Convolution Networks 在源领域和目标领 - fpgaHART: 一种用于将 3D CNNs 加速到 FPGA 上的吞吐量导向的 HAR 工具流
研究提出一种工具流程,将 3D CNN 模型优化到 FPGA 设备上,采用同步数据流图来模拟设计并引入转换来拓展和探索设计空间,以实现高吞吐量设计。在多个 FPGA 设备上评估了各种 3D CNN 模型,证明了与早期手动调整和特定模型的设计 - FMM-X3D:基于 FPGA 的 X3D 人体动作识别建模与映射
本文提出一种新的工具流,可以将在 Human Action Recognition 中获得 95.5% 的 UCF101 基准精度的最先进模型 X3D 映射到任何 FPGA 设备上,并且生成一个经过优化的基于流的硬件系统,使生成的设计在现有 - 利用光子储备计算机进行高速人体动作识别
本文提出了基于 “兴趣时间步” 的水库计算算法的新训练方法,研究了其在人类行为识别中的表现,同时还在 KTH 数据集上使用单个非线性节点和时延线进行了光子实现。该算法表现出高准确性和速度,能够实现多个视频流的实时处理。这是开发高效专用硬件进 - 基于运动场景解耦的鼠类感知视频位置预测策略与基准测试
本研究提出了 RatPose 数据集,该数据集考虑了个体和环境的影响因素,并提出了一种名为双流场景运动解耦(DMSD)的方法来提高运动预测的鲁棒性,该方法在不同难度的任务中展示了显著的性能提升,同时验证了数据集的泛化能力。
- 通过对比视图不变表示进行跨视图动作识别
提出了一种简单高效的跨视角动作识别(CVAR)框架,能够从 RGB 视频、3D 骨架数据或两者学习不变特征。在 N-UCLA、NTU-RGB+D 60、NTU-RGB+D 120 和 UWA3DII 数据集上,该方法表现出优异的性能,分别达 - 基于 RGB 和热像视频的人体动作识别实时算法
我们提出了一种基于深度学习算法的人体动作识别方法,适用于 RGB 和红外热像摄像机,能够在实时性要求的情况下实现行人的检测和跟踪,并可对常见的四种动作进行识别。该方法利用了当前最先进的物体检测、光流和姿势估计技术,经过对视频数据集进行定性实 - CVPR基于运动捕捉的动作识别的时空网格变换器(STMT)
本文提出一种利用 Spatial-Temporal Mesh Transformer(STMT) 直接对网格序列进行建模的方法,通过使用层次 Transformer 结构和自监督任务来实现骨架表示和点云表示无法达到的以空间 - 时间域的非局 - CVPR基于骨架的动作识别中学习判别性表示
本文提出了一个辅助的特征细化头(FR Head),通过空间 - 时间分解和对比特征细化来识别骨架的歧义样本,从而强化对多层的监督,并在多个数据集上进行了广泛的实验,得到了与最先进方法相竞争的结果。
- 环境对抗域自适应动作识别
本文提出了一种基于领域自适应的行为识别方法,使用对抗学习在跨域场景中学习跨域动作识别,从而实现对低光条件下的人类行为进行识别,并在 InFAR 和 XD145 动作数据集上取得了 SOTA 表现。
- 应用驱动的人类动作识别 AI 范式
本文提出了一个可适用于多种应用场景的人体动作识别框架,包含多形式人体检测和对应动作分类两个模块。其中,通过构建开源数据集来训练多形式人体检测模型,从而识别人的整体、上半身或部分身体,并采用动作分类模型来识别跌倒、睡觉等动作。实验结果表明,该 - 视觉 Transformer 在动作识别中的应用:一份调研报告
本文针对视觉 transformer 在人体动作识别领域的研究进展进行了综述,主要就其架构、模态、目标、编码、降维、自监督学习、评估指标等方面展开阐述,并探讨了其存在的挑战和未来发展方向。
- MM人体动作识别的渐进式跨模态知识蒸馏
本研究提出了一种新颖的渐进式骨架到传感器知识蒸馏模型 (PSKD),利用智能手表的时间序列数据,解决佩戴式传感器人类动作识别问题。通过构建多个教师模型和学生模型,设计了一种自适应置信度语义 (ACS) 损失函数。实验结果表明,PSKD 方法 - 基于骨架的人类交互识别的双人图卷积网络
本文介绍了一种新型的二人图来表示关节之间的人与人交互和身体内部的相关性,并提出了两个人图卷积网络(2P-GCN)来识别人与人交互和个体动作。实验结果表明,该模型在 SBU、NTU-RGB+D 和 NTU-RGB+D 120 三个数据集的四项 - ECCV运动差异量化隐私保护动作识别
提出一种名为 BDQ 的简单而强大的隐私保护编码器,用于处理智能计算机视觉系统的人类动作识别,由模糊、差分和量化三个模块组成,并经过对抗性训练进行参数优化,实验结果表明该编码器的性能优于之前的工作。
- CVPRDirecFormer:一种基于 Transformer 的定向注意力方法用于鲁棒动作识别
通过引入有序时序学习问题和引入新的有向注意力机制,提出了一个新的基于 Transformer 的框架来解决行为识别问题,并在三个标准大规模基准测试上实现了与最近的行为识别方法相比的最先进的结果。
- Context-LSTM:在 UCF101 上进行视频检测的强大分类器
本文旨在通过使用 LSTM 结构简化视频检测来降低训练时间和 GPU 内存使用,同时保持在 UCF101 数据集上的准确度,并实现视频动作检测的稳健性表现。
- 在神经形态摔倒检测和动作识别数据集上评估传统视觉模型
提出针对神经形态感知相机的人体动作识别和跌倒检测数据集,使用先进视觉模型 Fine-tuned 的方法,各模型准确度分别为:DVS-MViT(0.958),DVS-C2D(0.916),DVS-R2+1D(0.875)和 DVS-SlowF - 人体动作识别的多视点室外数据集
该论文提供了一个从多个角度观测人类行为的数据集,并在两流卷积神经网络结构配合核排名汇总的方法下获得了 74.0% 的动作识别准确率。
- Action Transformer:用于基于短时间姿态的人类动作识别的自注意模型
本文介绍了 Action Transformer,一种简单的完全自注意力架构,在人体动作识别中表现出色,并利用 2D 姿势表示来提供低延迟解决方案,此外我们提供了 MPOSE2021,这是一个新的大规模数据集,用于实时、短时 HAR 的训练