M$^2$DAR：基于 Vision Transformer 的多视角多尺度驾驶员动作识别

CVPRMay, 2023

M$^2$DAR：基于 Vision Transformer 的多视角多尺度驾驶员动作识别

M$^2$DAR: Multi-View Multi-Scale Driver Action Recognition with Vision Transformer

Yunsheng Ma, Liangqi Yuan, Amr Abdelraouf, Kyungtae Han, Rohit Gupta...

TL;DR提出了一个名为 M2DAR 的多视角、多尺度框架，利用计算机视觉技术实现自然驾驶动作识别和定位来保障交通安全，特别关注于检测分心驾驶行为，其核心特征在于一个具有权重共享、多尺度 Transformer-based 动作识别网络，并提出了一个新的选举算法从多个视角综合整合和选择动作识别模块的初步结果，实验表明该方法在第 7 届 AI City Challenge Track 3 数据集上实现了 0.5921 的重叠分数。

Abstract

Ensuring traffic safety and preventing accidents is a critical goal in daily driving, where the advancement of computer vision technologies can be leveraged to achieve this goal. In this paper, we present a multi

traffic safety computer vision technologies driving action recognition distracted driving behaviors multi-view multi-scale framework

发现论文，激发创造

M2DA：多模态融合 Transformer 结合驾驶员注意力用于自动驾驶

提出了一种多模态融合变压器，结合驾驶员注意力用于自动驾驶，通过 Lidar-Vision-Attention-based Fusion 模块更好地融合多模态数据，并实现不同模态之间更高的对齐，同时结合驾驶员的注意力，赋予自动驾驶车辆类似于人类的场景理解能力，准确识别复杂场景中的关键区域，确保安全。在 CARLA 模拟器上进行实验，以较少的数据在闭环基准测试中取得了最先进的性能。

Mar, 2024

基于车厢监控的双特征偏移的多模态动作识别

基于双特征位移的新型高效多模态驾驶员动作识别方法 DFS，通过模态特征相互作用和时间帧之间的特征位移实现跨模态综合特征，共享多个模态中的特征提取阶段，以学习常见模式并提高模型效率，在 Drive&Act 数据集上验证了 DFS 模型的有效性和优良性能。

Jan, 2024

PoseViNet: 使用多视角姿态估计和视觉变换器的分心驾驶员动作识别框架

该研究引入了一种利用多视角驾驶员行为图像检测驾驶员分心的新方法，该方法基于姿态估计和动作推理的视觉变换器框架，名为 PoseViNet。通过将姿势信息添加到变换器中，使其更加专注于关键特征，从而更好地识别关键动作。通过与现有模型在两个不同的数据集上的比较，证明了 PoseViNet 的优越性。在具有挑战性的 SynDD1 数据集上，PoseViNet 实现了 97.55％的验证准确率和 90.92％的测试准确率。

Dec, 2023

基于 Transformer 的 2D 姿势和时空嵌入融合的分心驾驶操作识别

该研究旨在通过将视频动作识别和 2D 人体姿势估计网络结合为一个模型，改善时间定位和分类准确性表现。最终，通过从不同的摄像头视角获取信息并消除误报，该模型在 2023 年 NVIDIA AI 城市挑战的自然驾驶行为识别中表现出色，实现了优化的区域覆盖得分 0.5079。

Mar, 2024

使用遮蔽的多头自注意力的强健多视角多模式驾驶员监测系统

本文提出了一种基于多头自我注意力的多视角多模式驾驶员监控系统和 GPU 友好型监督对比学习框架 SuMoCo，用于对驾驶员行为进行多类别识别，在 DAD 数据集上的实验证明，所提出的 MHSA 融合方法（AUC-ROC：97.0％）优于所有基线和先前的方法，通过使用补丁屏蔽训练后的 MHSA 能够提高其抗模态 / 视角崩溃能力。

Apr, 2023

多关注融合的疲劳驾驶检测模型

司机疲劳驾驶是交通事故的主要原因之一，通过引入多关注融合疲劳驾驶检测模型（MAF），可以显著提升分类性能，特别是在部分面部遮挡和低光照条件下，从而在提高算法整体稳健性方面发挥更大作用。通过在夜间和白天的光照条件下采集真实世界的数据集，我们进行了一系列综合实验，结果显示我们提出的模型达到了 96.8% 的司机疲劳检测准确率。

Dec, 2023

M3DeTR：基于 Transformer 的多表征、多尺度、互相关联的 3D 物体检测

提出了一种新颖的 3D 物体检测架构 M3DeTR，它将不同的点云表示方法（原始、体素、鸟瞰图）和不同的特征尺度结合在一起，并基于多尺度特征金字塔来模型点云之间的相互关系。通过大量的消融实验，突出了特征尺度和表示方式融合，以及模型点云之间的相互关系的好处。在 KITTI 3D 物体检测数据集和 Waymo 开放数据集中取得了最先进的性能表现，并在一些类别中排名第一。

Apr, 2021

DVANet：多视角行为识别中视角和动作特征的解耦合

提出一种新颖的多视图动作识别方法，通过可学习的变换器解码查询和两个监督对比损失将学习到的动作特征与视图信息分离，从而显著提高了多视图动作识别的性能。

Dec, 2023

运用时空关注机制与视觉变换器识别分心和疲劳驾驶

2021 年与 2020 年相比，车辆事故率上升 20％，其中 45％的车祸是由于疲劳和分心驾驶所致。这项研究使用计算机视觉设计了低成本、精度高且侵入性小的检测方法，探讨了使用视觉变换器来优于 3D-CNNs 的最新准确性，针对分心和疲劳驾驶分别训练了两个变压器。其中，分心的模型表现超越最先进的模型，达到 97.5％的准确度。建议未来的研究使用新的和更强大的模型来实现更高的准确性和效率，在现有数据集的基础上扩展到检测醉酒驾驶和道路愤怒，以创建全面的解决方案来防止交通事故。

Jul, 2022

一种记忆增强的多任务协作框架，用于无监督驾驶视频中的交通事故检测

通过多任务协作的记忆增强框架（MAMTCF）来无监督地检测驾驶视频中的交通事故，同时对外观变化和目标运动建模，取得了比现有方法更好的性能。

Jul, 2023