增强 Transformer 主干网络，用于自我中心视频动作分割

CVPRMay, 2023

增强 Transformer 主干网络，用于自我中心视频动作分割

Enhancing Transformer Backbone for Egocentric Video Action Segmentation

Sakib Reza, Balaji Sundareshan, Mohsen Moghaddam, Octavia Camps

TL;DR本研究提出了两种新颖的想法来增强用于行动分割的 transformer，第一，我们引入了双扩张注意机制来自适应地捕获局部到全局和全局到局部上下文中的分层表示。第二，我们在编码器和解码器块之间加入跨连接以防止解码器丢失局部上下文。此外，我们利用最先进的视觉语言表示学习技术为我们的 transformer 提取更丰富，更紧凑的特征。我们的方法在 Georgia Tech Egocentric Activities (GTEA) 和 HOI4D Office Tools 数据集上优于其他最先进的方法，并且我们通过消融实验验证了我们介绍的组件。我们的源代码和补充材料公开可用。

Abstract

egocentric temporal action segmentation in videos is a crucial task in computer vision with applications in various fields such as mixed reality, human behavior analysis, and robotics. Although recent research has utilized advanced visual-language frameworks, →

egocentric temporal action segmentation transformers dual dilated attention mechanism visual-language representation learning techniques georgia tech egocentric activities

发现论文，激发创造

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

利用多任务学习提升自我中心行为识别

本文提出了一种使用多任务学习的方法，通过并行训练网络来提高动作识别的准确率，并同时实现手部和凝视估计的辅助任务。在多个数据集上的实验证明，该方法在动作识别上的性能明显优于单任务学习模型，并可以准确预测手部和凝视位置。

Sep, 2019

增强的细粒度人体动作识别的联合 CNN Transformer 编码器

本文研究了基于视觉编码器和多模式视频文本交叉编码器的两个框架，通过结合 CNN 视觉和 Transformer 编码器，增强了细粒度行动识别的效果，并在 FineGym 基准数据集上取得了最新的最优性能。

Aug, 2022

从外向内视角理解跨视角动作识别

提出了一种跨视角学习的方法，通过分析不同视角下的摄像机位置并引入基于几何约束的注意力机制，以加强深度学习模型在个人视频中的动作识别能力。实验证明这种方法在标准的个人视频动作识别基准测试中表现良好，并达到了最先进的性能。

May, 2023

面向语言驱动视频动作定位的实体感知和动作感知 Transformer

本文提出了一种利用实体感知和动作感知的转换器，通过文本实体及动作查询逐步地定位视频中的动作定位。实验表明，相比于现有方法，我们的方法在动作定位的精度上具有优势。

May, 2022

从时间维度出发：多模态自我中心动作识别

利用时间上下文提高了自我中心视频识别能力的基于转换器的多模态模型。

Nov, 2021

针对自我视角 RGB 视频的三维手部姿态估计和动作识别的分层时间变换器

通过一个基于 transformer 的框架来利用时间信息进行动态手势和行为的鲁棒性估计，分别实现短期的手势估计和长期的行为识别，取得了较好的结果。

Sep, 2022

Trear: 基于 Transformer 的 RGB-D 自我中心动作识别

本文提出了一种基于 Transformer、RGB-D 数据和自注意力机制的循环视角动作识别框架，该框架优于现有的方法并在两个大型数据集和一个小型数据集上进行了经验证实验。

Jan, 2021

基于 Transformer 的 2D 姿势和时空嵌入融合的分心驾驶操作识别

该研究旨在通过将视频动作识别和 2D 人体姿势估计网络结合为一个模型，改善时间定位和分类准确性表现。最终，通过从不同的摄像头视角获取信息并消除误报，该模型在 2023 年 NVIDIA AI 城市挑战的自然驾驶行为识别中表现出色，实现了优化的区域覆盖得分 0.5079。

Mar, 2024

STAR-Transformer：面向人类动作识别的时空交叉注意力变压器

提出一种名为 STAR-transformer 的模型，该模型可以有效地表示两个跨模态特征为可识别的矢量，并学习到一种高效的多功能特征表示方法。在动作识别领域中，STAR-transformer 的效果显著优于之前的最先进方法。

Oct, 2022