Trear: 基于 Transformer 的 RGB-D 自我中心动作识别
我们的研究集中在认识行为,特别是来自以自我为中心视角的行为,并结合深度模态从工业环境中识别行为。针对现实世界中多模态行为发生的困难,我们提出了一种训练策略,并通过后期融合来结合来自每种模态的预测,这在 MECCANO 数据集上明显优于先前的工作,并在 ICIAP 2023 的多模态行为识别挑战中获得第一名。
Sep, 2023
通过一个基于 transformer 的框架来利用时间信息进行动态手势和行为的鲁棒性估计,分别实现短期的手势估计和长期的行为识别,取得了较好的结果。
Sep, 2022
本研究提出了两种新颖的想法来增强用于行动分割的 transformer,第一,我们引入了双扩张注意机制来自适应地捕获局部到全局和全局到局部上下文中的分层表示。第二,我们在编码器和解码器块之间加入跨连接以防止解码器丢失局部上下文。此外,我们利用最先进的视觉语言表示学习技术为我们的 transformer 提取更丰富,更紧凑的特征。我们的方法在 Georgia Tech Egocentric Activities (GTEA) 和 HOI4D Office Tools 数据集上优于其他最先进的方法,并且我们通过消融实验验证了我们介绍的组件。我们的源代码和补充材料公开可用。
May, 2023
提出了一种跨视角学习的方法,通过分析不同视角下的摄像机位置并引入基于几何约束的注意力机制,以加强深度学习模型在个人视频中的动作识别能力。实验证明这种方法在标准的个人视频动作识别基准测试中表现良好,并达到了最先进的性能。
May, 2023
本文提出了一种使用多任务学习的方法,通过并行训练网络来提高动作识别的准确率,并同时实现手部和凝视估计的辅助任务。在多个数据集上的实验证明,该方法在动作识别上的性能明显优于单任务学习模型,并可以准确预测手部和凝视位置。
Sep, 2019
本文提出了一种基于关节的动作识别模型,使用共享的运动编码器从每个关节分别提取运动特征,再通过联合推理的方式进行识别,同时引入了选定更具判别性关节的加权计算机制,关节对比损失技巧,以及基于几何感知的数据增强技术等方法,经实验证明,在 JHMDB,HMDB,Charades,AVA 动作识别数据集上,以及 Mimetics 数据集上,相对于当前最先进的基于关节行动识别方法有大幅度提升。同时与 RGB 和基于光流的方法进行了融合处理,以进一步提高性能。
Oct, 2020
提出一种名为 STAR-transformer 的模型,该模型可以有效地表示两个跨模态特征为可识别的矢量,并学习到一种高效的多功能特征表示方法。在动作识别领域中,STAR-transformer 的效果显著优于之前的最先进方法。
Oct, 2022
该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集,并设计了使用递归神经网络的基线方法,并进行了各种消融研究以验证其有效性,从而证明该新任务值得进一步学习。
Mar, 2022
本文研究了如何在仅使用 RGB 帧作为输入的情况下,保持多模态方法的性能表现,进而采用多模型知识蒸馏框架来处理这个问题,并在输入视角数量减少的情况下展示了更高的性能。
Jul, 2023
本文提出了一种新的空时变换器网络(ST-TR),该网络利用 Transformer 自我注意机制对 3D 骨架中的关节之间的依赖关系进行建模。空间自我注意模块(SSA)用于理解不同身体部位之间的帧内相互作用,而时间自我注意模块(TSA)用于建模帧间的相关性。两个模块在两个流网络中被结合使用,对 NTU-RGB + D 60 和 NTU-RGB + D 120 上的相同输入数据优于同类基准模型。
Dec, 2020