Trear: 基于 Transformer 的 RGB-D 自我中心动作识别

Jan, 2021

Trear: 基于 Transformer 的 RGB-D 自我中心动作识别

Trear: Transformer-based RGB-D Egocentric Action Recognition

Xiangyu Li, Yonghong Hou, Pichao Wang, Zhimin Gao, Mingliang Xu...

TL;DR本文提出了一种基于 Transformer、RGB-D 数据和自注意力机制的循环视角动作识别框架，该框架优于现有的方法并在两个大型数据集和一个小型数据集上进行了经验证实验。

Abstract

In this paper, we propose a \textbf{Tr}ansformer-based rgb-d \textbf{e}gocentric \textbf{a}ction \textbf{r}ecognition framework, called Trear. It consists of two modules, inter-frame attention encoder and mutual-attentional →

transformer-based rgb-d action recognition self-attention fusion

发现论文，激发创造

工业场景中的主体视角 RGB + 深度行为识别

我们的研究集中在认识行为，特别是来自以自我为中心视角的行为，并结合深度模态从工业环境中识别行为。针对现实世界中多模态行为发生的困难，我们提出了一种训练策略，并通过后期融合来结合来自每种模态的预测，这在 MECCANO 数据集上明显优于先前的工作，并在 ICIAP 2023 的多模态行为识别挑战中获得第一名。

Sep, 2023

针对自我视角 RGB 视频的三维手部姿态估计和动作识别的分层时间变换器

通过一个基于 transformer 的框架来利用时间信息进行动态手势和行为的鲁棒性估计，分别实现短期的手势估计和长期的行为识别，取得了较好的结果。

Sep, 2022

增强 Transformer 主干网络，用于自我中心视频动作分割

本研究提出了两种新颖的想法来增强用于行动分割的 transformer，第一，我们引入了双扩张注意机制来自适应地捕获局部到全局和全局到局部上下文中的分层表示。第二，我们在编码器和解码器块之间加入跨连接以防止解码器丢失局部上下文。此外，我们利用最先进的视觉语言表示学习技术为我们的 transformer 提取更丰富，更紧凑的特征。我们的方法在 Georgia Tech Egocentric Activities (GTEA) 和 HOI4D Office Tools 数据集上优于其他最先进的方法，并且我们通过消融实验验证了我们介绍的组件。我们的源代码和补充材料公开可用。

May, 2023

从外向内视角理解跨视角动作识别

提出了一种跨视角学习的方法，通过分析不同视角下的摄像机位置并引入基于几何约束的注意力机制，以加强深度学习模型在个人视频中的动作识别能力。实验证明这种方法在标准的个人视频动作识别基准测试中表现良好，并达到了最先进的性能。

May, 2023

利用多任务学习提升自我中心行为识别

本文提出了一种使用多任务学习的方法，通过并行训练网络来提高动作识别的准确率，并同时实现手部和凝视估计的辅助任务。在多个数据集上的实验证明，该方法在动作识别上的性能明显优于单任务学习模型，并可以准确预测手部和凝视位置。

Sep, 2019

姿态和关节感知动作识别

本文提出了一种基于关节的动作识别模型，使用共享的运动编码器从每个关节分别提取运动特征，再通过联合推理的方式进行识别，同时引入了选定更具判别性关节的加权计算机制，关节对比损失技巧，以及基于几何感知的数据增强技术等方法，经实验证明，在 JHMDB，HMDB，Charades，AVA 动作识别数据集上，以及 Mimetics 数据集上，相对于当前最先进的基于关节行动识别方法有大幅度提升。同时与 RGB 和基于光流的方法进行了融合处理，以进一步提高性能。

Oct, 2020

STAR-Transformer：面向人类动作识别的时空交叉注意力变压器

提出一种名为 STAR-transformer 的模型，该模型可以有效地表示两个跨模态特征为可识别的矢量，并学习到一种高效的多功能特征表示方法。在动作识别领域中，STAR-transformer 的效果显著优于之前的最先进方法。

Oct, 2022

自我中心的三维动作目标预测

该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集，并设计了使用递归神经网络的基线方法，并进行了各种消融研究以验证其有效性，从而证明该新任务值得进一步学习。

Mar, 2022

自我中心行为识别的多模态蒸馏

本文研究了如何在仅使用 RGB 帧作为输入的情况下，保持多模态方法的性能表现，进而采用多模型知识蒸馏框架来处理这个问题，并在输入视角数量减少的情况下展示了更高的性能。

Jul, 2023

基于骨骼的动作识别的时空转换器网络

本文提出了一种新的空时变换器网络（ST-TR），该网络利用 Transformer 自我注意机制对 3D 骨架中的关节之间的依赖关系进行建模。空间自我注意模块（SSA）用于理解不同身体部位之间的帧内相互作用，而时间自我注意模块（TSA）用于建模帧间的相关性。两个模块在两个流网络中被结合使用，对 NTU-RGB + D 60 和 NTU-RGB + D 120 上的相同输入数据优于同类基准模型。

Dec, 2020