使用来自视觉 - 语言模型的通用表示进行驾驶员活动分类

Apr, 2024

使用来自视觉 - 语言模型的通用表示进行驾驶员活动分类

Driver Activity Classification Using Generalizable Representations from Vision-Language Models

Ross Greer, Mathias Viborg Andersen, Andreas Møgelmose, Mohan Trivedi

TL;DR使用视觉 - 语言模型的通用表征，在司机活动分类中利用语义表示延迟融合神经网络（SRLF-Net）的新方法，通过对多个视角的同步视频帧进行处理，对每个帧进行预训练的视觉 - 语言编码器进行编码，并融合生成类别概率预测，利用对比学习的视觉 - 语言表示，方法在自然驾驶行为识别数据集上得到了鲁棒的性能，证明视觉 - 语言表示为司机监控系统提供了准确性和可解释性。

Abstract

driver activity classification is crucial for ensuring road safety, with applications ranging from driver assistance systems to autonomous vehicle control transitions. In this paper, we present a novel approach leveraging generalizable representations from →

driver activity classification vision-language models semantic representation late fusion neural network robust performance driver monitoring systems

发现论文，激发创造

视觉 - 语言模型能从自然视频中识别分心驾驶员的行为

提出了一种基于 CLIP 的驾驶员活动识别方法，该方法可以从自然驾驶图像和视频中识别驾驶员分心行为，并具有零样本迁移和面向任务的微调的特点。

Jun, 2023

自主驾驶的基于行动的表示学习

该研究探讨了利用人类驾驶产生的数据对自动驾驶系统进行改进的方法，提出了利用基于行动的驾驶数据进行学习表示的模型，该模型在弱注释图像方面表现出色，并且优于纯粹的端到端驾驶模型，同时更具有可解释性。

Aug, 2020

使用条件自适应表示学习框架检测司机疲劳

我们提出了一种基于 3D 深度卷积神经网络的驾驶员疲劳检测的条件自适应表示学习框架。该框架通过四个模型实现，包括时空特征表示、场景条件理解、特征融合和疲劳检测。实验结果显示，该框架优于现有的基于视觉分析的疲劳检测方法。

Oct, 2019

通过模态和视角分析的实时驾驶员监控系统

该研究提出了一种实时检测驾驶人行为的新方法，通过研究不同的感知模态发现红外视频在检测中更具有信息量，并通过多分类技术扩展 DAD 数据集。

Oct, 2022

从大规模视频数据集中端对端学习驾驶模型

利用大规模的众包视频数据，从中学习通用车辆运动模型，并开发了一种端到端可训练的架构，用于从瞬间单目摄像头观察和先前的车辆状态中学习预测未来车辆自我运动的分布。

Dec, 2016

GPT-4V (ision) 自动驾驶中的视觉语言模型的早期探索

该研究论文评估了最新的先进视觉语言模型（VLM）在自动驾驶场景中的应用，发现该模型在场景理解和因果推理方面表现出优越性能，但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。

Nov, 2023

DriveVLM：自动驾驶与大型视觉语言模型的融合

DriveVLM 是一种利用 Vision-Language Models（VLMs）进行场景理解和规划的自动驾驶系统，通过一系列思维链模块实现场景描述、分析和层次规划，并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制，实现了稳健的空间理解和实时推理速度，通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验，证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。

Feb, 2024

PoseViNet: 使用多视角姿态估计和视觉变换器的分心驾驶员动作识别框架

该研究引入了一种利用多视角驾驶员行为图像检测驾驶员分心的新方法，该方法基于姿态估计和动作推理的视觉变换器框架，名为 PoseViNet。通过将姿势信息添加到变换器中，使其更加专注于关键特征，从而更好地识别关键动作。通过与现有模型在两个不同的数据集上的比较，证明了 PoseViNet 的优越性。在具有挑战性的 SynDD1 数据集上，PoseViNet 实现了 97.55％的验证准确率和 90.92％的测试准确率。

Dec, 2023

DriveLM: 基于图像问答的驾驶

我们研究了如何将在网络规模的数据上训练的视觉 - 语言模型（VLMs）整合到端到端驾驶系统中，以增强泛化能力，并实现与人类用户的互动。通过在感知、预测和规划等方面建立图结构推理的问答对模型，我们提出了 Graph VQA 任务，以模拟人类的推理过程。我们构建了基于 nuScenes 和 CARLA 的数据集（DriveLM-Data），并提出了一个基于 VLM 的基准方法（DriveLM-Agent），用于同时进行 Graph VQA 和端到端驾驶。实验证明 Graph VQA 为驾驶场景的推理提供了简单和有原则的框架，DriveLM-Data 为这一任务提供了具有挑战性的基准。我们的 DriveLM-Agent 基线在与最先进的专用驾驶架构相比的端到端自动驾驶方面表现出了竞争力。值得注意的是，当其在未见过的对象或传感器配置上进行零样本评估时，其效果更为显著。希望这项工作能为如何将 VLMs 应用于自动驾驶提供新的启示。为了促进未来的研究，我们将所有的代码、数据和模型公开提供。

Dec, 2023

驾驶员识别的卷积循环神经网络模型中的驾驶风格表示

本文提出了一种深度神经网络结构 D-CRNN，通过结合卷积神经网络（CNN）和循环神经网络（RNN）的优势，建立了高保真度的驾驶风格表示，通过几个大型实时数据库的广泛实验和与先进的深度学习和非深度学习解决方案的比较，证明了这些技术在驾驶员识别方面的有效性。

Feb, 2021