基于 Transformer 的 2D 姿势和时空嵌入融合的分心驾驶操作识别

Mar, 2024

基于 Transformer 的 2D 姿势和时空嵌入融合的分心驾驶操作识别

Transformer-based Fusion of 2D-pose and Spatio-temporal Embeddings for Distracted Driver Action Recognition

Erkut Akdag, Zeqi Zhu, Egor Bondarev, Peter H. N. De With

TL;DR该研究旨在通过将视频动作识别和 2D 人体姿势估计网络结合为一个模型，改善时间定位和分类准确性表现。最终，通过从不同的摄像头视角获取信息并消除误报，该模型在 2023 年 NVIDIA AI 城市挑战的自然驾驶行为识别中表现出色，实现了优化的区域覆盖得分 0.5079。

Abstract

Classification and localization of driving actions over time is important for advanced driver-assistance systems and naturalistic driving studies. Temporal localization is challenging because it requires robustness, reliability, and accuracy. In this study, we aim to improve the

driving actions temporal localization classification accuracy video action recognition 2d human-pose estimation

发现论文，激发创造

一种基于语义和运动感知的时空转换网络实现动作检测

本文介绍了一种新颖的时空变换网络，其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联，使用运动感知网络编码视频帧中的动作位置，并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系，该方法在四个时空动作数据集上优于最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。

May, 2024

自主驾驶的空间编码传感器融合

该论文介绍了一种使用 Transformer 模块在多个分辨率上有效合并局部和全局上下文关系的相机和 LiDAR 数据融合方法，并通过与两个具有长途路线和高密度交通的对抗基准的广泛实验证实了该方法的性能优势。与之前的方法相比，该方法在最具挑战性的基准测试中取得了显著更高的驾驶和违规得分，对于 Longest6 和 Town05 Long 基准测试，分别取得了 8% 和 19% 的提升。

Aug, 2023

PoseViNet: 使用多视角姿态估计和视觉变换器的分心驾驶员动作识别框架

该研究引入了一种利用多视角驾驶员行为图像检测驾驶员分心的新方法，该方法基于姿态估计和动作推理的视觉变换器框架，名为 PoseViNet。通过将姿势信息添加到变换器中，使其更加专注于关键特征，从而更好地识别关键动作。通过与现有模型在两个不同的数据集上的比较，证明了 PoseViNet 的优越性。在具有挑战性的 SynDD1 数据集上，PoseViNet 实现了 97.55％的验证准确率和 90.92％的测试准确率。

Dec, 2023

增强的细粒度人体动作识别的联合 CNN Transformer 编码器

本文研究了基于视觉编码器和多模式视频文本交叉编码器的两个框架，通过结合 CNN 视觉和 Transformer 编码器，增强了细粒度行动识别的效果，并在 FineGym 基准数据集上取得了最新的最优性能。

Aug, 2022

动作识别中的 Transformer: 时序模型综述

本文主要介绍了基于 transformers 模型的深度学习方法，用于模拟时间上的变化进行动作识别的研究进展和应用挑战。

Dec, 2022

探究用于时序动作定位的更强特征

本文研究了时域动作定位的方法，发现基于变压器的方法可以实现更好的分类性能，但不能生成准确的动作提案，最后通过以较高的帧分辨率提取特征来提高时域动作定位的性能，最终在 CVPR2021HACS 挑战中取得了第一名。

Jun, 2021

用于三维人体运动预测的时空转换器

本文提出一种新颖的基于 Transformer 的架构，用于生成 3D 人体运动的模型。该模型能够学习高维度骨骼关节的嵌入，通过解耦的时间和空间自注意机制使得生成的姿态在时间上是连贯的。实验结果表明该模型能够准确地生成短期预测并在长期时间跨度内生成合理的运动序列。

Apr, 2020

多透视空时关系变换的精确 3D 人体姿势估计

我们提出了一个多阶段的 3D 序列到序列人体姿势检测框架，利用变压器的自注意力机制从多视角视频数据中捕捉空间 - 时间相关性，实验结果表明我们的方法在 Human3.6M 数据集上表现出色。

Jan, 2024

基于骨骼的动作识别的时空转换器网络

本文提出了一种新的空时变换器网络（ST-TR），该网络利用 Transformer 自我注意机制对 3D 骨架中的关节之间的依赖关系进行建模。空间自我注意模块（SSA）用于理解不同身体部位之间的帧内相互作用，而时间自我注意模块（TSA）用于建模帧间的相关性。两个模块在两个流网络中被结合使用，对 NTU-RGB + D 60 和 NTU-RGB + D 120 上的相同输入数据优于同类基准模型。

Dec, 2020

基于卷积双流网络融合的视频动作识别

为了最好地利用时空信息，我们研究了在空间和时间上融合 ConvNet 塔的多种方法，并发现在卷积层融合空间和时间网络而不是在 softmax 层融合可以大大减少参数。我们提出了一种新的 ConvNet 架构，以融合视频片段的空时信息，并在标准基准测试中评估了其性能，该架构达到了最先进的结果。

Apr, 2016