- SMART: 适用于心理障碍群体的场景动作感知人体行为识别框架
通过构建图像识别人类动作的数据集,并引入新颖的技术框架 SMART,旨在实现对患有精神障碍患者进行智能监测和行为分析,以提高医疗保健质量和效率。
- DL-KDD: 暗光条件下行动识别的双光知识蒸馏
我们提出了一种新颖的师生视频分类框架 DL-KDD,它能够在不引入额外计算成本的情况下,从原始和增强视频中学习,通过知识蒸馏策略训练师傅模型和学生模型,使学生模型在推理过程中仅使用原始输入视频来预测动作,实验证实了这种蒸馏策略在暗光环境下人 - Action-OOD: 针对鲁棒性的端到端基于骨骼的模型用于非同分布人体动作检测
我们提出了一种新颖的端到端基于骨架的模型,称为 Action-OOD,用于识别人类动作中的 ODD,通过引入基于注意力的特征融合块和能量损失函数,我们的模型在识别未知类别的能力和分类准确性方面表现出了优越的性能。
- MM从 CNN 到 Transformers 的多模态人体动作识别:一项调查
多模态人体动作识别的综述研究,重点关注多模态数据融合设计方面的经典和新兴技术,分析了卷积神经网络和 Transformer 建模方法在该问题上的流行趋势和更高效的模型设计选择,并讨论了实践模型训练中的有前景的架构和融合设计选择,以及多模态数 - 使用两阶段方法学习打分手语
我们分析了现有的性能评估技术,并采用在人体姿势重建任务中表现良好的方法,结合运动旋转嵌入表达,提出了一个两阶段手语表演评估流程。实验证明,与端到端评估相比,我们的方法提供了良好的分数反馈机制,并与专业评估具有较高的一致性。
- ActNetFormer:半监督视频动作识别的 Transformer-ResNet 混合方法
提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法,其中结合 3D 卷积神经网络(3D CNN)和视频变换器(VIT)的独特方法能够有效捕捉行为的局部和全局上下文信息,从而在标记数据的一小部分情况下实现了卓越的性能。
- PhysPT:从单眼视频估计人体动力学的物理感知预训练变压器
当前方法在从单目视频中估计 3D 人体动作方面取得了有希望的进展,本文提出了一种考虑物理学规律的预训练变压器(PhysPT),改进了基于运动学的动作估计并推断了运动力。实验证明,经过训练后的 PhysPT 能够直接应用于运动学估计,显著增强 - 视频数据中人类行为识别的深度学习方法
通过对深度学习模型的全面分析,这项研究揭示了卷积神经网络、循环神经网络和两流卷积神经网络在人体动作识别中的优势和性能差异,并强调了综合模型在实现强大的人体动作识别方面的潜力和优化的研究方向。
- 运动场景中的大规模再识别分析:达到关键点的背叛
我们研究了一种基于步态的人群再识别方法,通过利用多个预训练的人体动作识别模型和损失函数,有效地实现了对超长距离比赛中参赛者的再识别,尤其在比赛的临界点会有显著的改进。
- 从检测到动作识别:面向机器人人体感知的基于边缘的流程
移动服务机器人通过对人类行为的识别和跟踪,实现了对人类行为的理解和响应,主要依赖于人类行为识别和边缘计算处理的效果良好的模型。
- 无需真实人类学习人体动作识别表征
利用去除真实人类的真实世界视频和包含虚拟人类的合成数据进行预训练,提出了一种新颖的隐私保护多重自编码对齐(MAE-Align)的预训练策略,通过线性探测和微调在下游任务中缩小了人类动作识别表示和非人类动作识别表示之间的性能差距。
- FPGA-QHAR: 面向边缘的量化人体动作识别优化吞吐量
提出了一种基于改进的 8 位量化的 Two-Stream SimpleNet-PyTorch CNN 体系结构的集成端到端的可扩展硬件 / 软件加速器共设计用于加速实时监控和机器人系统上的人类动作识别。通过将所有卷积、批量归一化和 ReLU - 行动运动分布(DAM):人体动作识别描述符
通过在数据集中所有可能的运动方向集合上基于关节帧之间运动方向分布的动作描述符(Distribution of Action Movements Descriptor),在保留部分时间结构的情况下,全局表示了一个动作的运动方向分布。该描述符与 - 提升基于骨架的行为识别与高效多模态自监督
自我监督表示学习在人体动作识别方面得到了快速发展。本文首先提出了一种隐式知识交换模块(IKEM),用于减轻低性能模态之间的错误知识传播。然后,我们进一步提出了三种新模态来丰富不同模态之间的互补信息。最后,通过锚点、正样本和负样本之间的约束关 - TransNet:基于迁移学习的网络人体动作识别
通过将复杂的 3D-CNN 解构为 2D - 和 1D-CNN,本文提出了一种简洁而多功能的端到端深度学习架构 TransNet 用于人体动作识别(HAR),通过与其他领域的预训练 2D-CNN 模型相结合,TransNet 可以有效地提高 - 统一对比融合变压器用于多模态人类动作识别
提出了一种新的多模态融合架构 UCFFormer,它能够整合具有不同分布的数据以增强人类动作识别 (HAR) 的性能;通过使用统一 Transformer 来捕捉嵌入特征在时间和模态领域之间的相互依赖关系,并引入了分解的时间 - 模态注意力 - IndGIC:低照度条件下的监督动作识别
在这篇论文中,我们提出了一种使用深度多输入网络的行为识别方法,并且还提出了一种独立伽马强度校正(Ind-GIC)来增强贫光照视频,通过生成一个伽马值来提高增强性能。通过与现有方法的评估和比较,实验结果表明我们的模型在 ARID 数据集上取得 - TS-RGBD 数据集:面向视觉障碍人士的剧场场景描述的新型数据集
在这篇论文中,我们提出了一个包含具有人类动作的真实场景和密集标题注释的新型 RGB-D 数据集(TS-RGBD 数据集),以进行影像字幕和人类动作识别。我们测试了图像字幕模型和基于骨骼的人类动作识别模型,以通过检测人类动作并对剧场场景中感兴 - 将人体解析和姿态网络集成用于人体动作识别
该研究介绍了一种新的人体解析特征图,被提出用于人体动作识别,结合 IPP-Net 方法,将骨架和人体解析特征映射应用于双分支方法,以筛选人体空间和时间特征,设计出包含人体姿态和人体解析分支的网络体系结构,通过多个数据集的综合对比实验,证明了 - 基于螺旋自编码器和 Transformer 网络的 MoCap 3D 人体动作识别
文章提出了一种基于 Spiral 自编码器和 Transformer 网络的新型固定拓扑网格序列的人体动作识别方法 SpATr,该方法通过融合空间和时间的解耦、自编码器和 Transformer 网络等手段,达到了高效且准确识别三维人体动作