PoseViNet: 使用多视角姿态估计和视觉变换器的分心驾驶员动作识别框架

Dec, 2023

PoseViNet: 使用多视角姿态估计和视觉变换器的分心驾驶员动作识别框架

PoseViNet: Distracted Driver Action Recognition Framework Using Multi-View Pose Estimation and Vision Transformer

Neha Sengar, Indra Kumari, Jihui Lee, Dongsoo Har

TL;DR该研究引入了一种利用多视角驾驶员行为图像检测驾驶员分心的新方法，该方法基于姿态估计和动作推理的视觉变换器框架，名为 PoseViNet。通过将姿势信息添加到变换器中，使其更加专注于关键特征，从而更好地识别关键动作。通过与现有模型在两个不同的数据集上的比较，证明了 PoseViNet 的优越性。在具有挑战性的 SynDD1 数据集上，PoseViNet 实现了 97.55％的验证准确率和 90.92％的测试准确率。

Abstract

driver distraction is a principal cause of traffic accidents. In a study conducted by the National Highway Traffic Safety Administration, engaging in activities such as interacting with in-car menus, consuming food or beverages, or engaging in telephonic conversations while operating a

driver distraction multi-view driver action images posevinet pose estimation action inference

发现论文，激发创造

实时分析分心驾驶员的姿势分类

本文介绍一种新的基于卷积神经网络集成学习和遗传算法优化的 “分心驾驶” 姿势估计系统，能够高效检测和识别驾驶人员的姿态，同时降低交通事故风险。

Jun, 2017

基于 Transformer 的 2D 姿势和时空嵌入融合的分心驾驶操作识别

该研究旨在通过将视频动作识别和 2D 人体姿势估计网络结合为一个模型，改善时间定位和分类准确性表现。最终，通过从不同的摄像头视角获取信息并消除误报，该模型在 2023 年 NVIDIA AI 城市挑战的自然驾驶行为识别中表现出色，实现了优化的区域覆盖得分 0.5079。

Mar, 2024

M$^2$DAR：基于 Vision Transformer 的多视角多尺度驾驶员动作识别

提出了一个名为 M2DAR 的多视角、多尺度框架，利用计算机视觉技术实现自然驾驶动作识别和定位来保障交通安全，特别关注于检测分心驾驶行为，其核心特征在于一个具有权重共享、多尺度 Transformer-based 动作识别网络，并提出了一个新的选举算法从多个视角综合整合和选择动作识别模块的初步结果，实验表明该方法在第 7 届 AI City Challenge Track 3 数据集上实现了 0.5921 的重叠分数。

May, 2023

驾驶员注意力跟踪和分析

我们提出了一种使用安装在车辆挡风玻璃和仪表盘上的普通摄像头来估计驾驶员凝视点的新方法。该方法通过开发一种卷积网络来同时分析场景图像和驾驶员面部图像，其中包含一个相机校准模块，可以计算表示驾驶员和摄像头系统之间空间配置的嵌入向量，该模块改善了网络的性能并可以进行端到端的联合训练。我们还引入了一种大规模的驾驶数据集，其中包含了真实驾驶情景的图像以及驾驶员面部和凝视数据，对该数据集的实验表明，所提出的方法优于各种基准方法，均方误差为 29.69 像素，相对于场景摄像头的 $1280 {imes} 720$ 分辨率而言，误差较小。

Apr, 2024

运用时空关注机制与视觉变换器识别分心和疲劳驾驶

2021 年与 2020 年相比，车辆事故率上升 20％，其中 45％的车祸是由于疲劳和分心驾驶所致。这项研究使用计算机视觉设计了低成本、精度高且侵入性小的检测方法，探讨了使用视觉变换器来优于 3D-CNNs 的最新准确性，针对分心和疲劳驾驶分别训练了两个变压器。其中，分心的模型表现超越最先进的模型，达到 97.5％的准确度。建议未来的研究使用新的和更强大的模型来实现更高的准确性和效率，在现有数据集的基础上扩展到检测醉酒驾驶和道路愤怒，以创建全面的解决方案来防止交通事故。

Jul, 2022

视觉 - 语言模型能从自然视频中识别分心驾驶员的行为

提出了一种基于 CLIP 的驾驶员活动识别方法，该方法可以从自然驾驶图像和视频中识别驾驶员分心行为，并具有零样本迁移和面向任务的微调的特点。

Jun, 2023

基于自监督学习框架和遮挡图像建模的新型驾驶员分神行为检测

本文介绍了一种基于自监督学习的用于驾驶员分心检测的新方法，该方法使用遮罩图像建模进行自监督学习，并利用 Swin Transformer 作为编码器以增强性能，最终使用各种数据增广策略加上最佳的随机遮罩策略来加强模型的识别和泛化能力，测试结果表明，该方法的准确率为 99.60％，接近先进的监督学习方法的出色表现。

Jun, 2023

通过模态和视角分析的实时驾驶员监控系统

该研究提出了一种实时检测驾驶人行为的新方法，通过研究不同的感知模态发现红外视频在检测中更具有信息量，并通过多分类技术扩展 DAD 数据集。

Oct, 2022

采用卷积神经网络集成的驾驶员分心识别

研究利用深度学习和卷积神经网络进行驾驶员分心检测，提供了一个包含更多分心姿态的公共数据集，并提出了一种可靠的基因加权集成方法，可以在现实环境中实现 84.64％分类准确率。

Jan, 2019

预测驾驶员的注意力焦点：DR (eye) VE 项目

本文旨在预测驾驶员的注意力集中情况，提出了一种基于多分支深度架构的计算机视觉模型，集成了三种信息源：原始视频、动态和场景语义，并介绍了 DR (eye) VE，这是迄今为止最大的驾驶场景数据集，结果强调了跨驾驶员共享的注意力模式，可在人车交互和驾驶员注意力分析等多个应用方面受益。

May, 2017