AccidentBlip2: 多视角运动检测的事故检测

Apr, 2024

AccidentBlip2: 多视角运动检测的事故检测

AccidentBlip2: Accident Detection With Multi-View MotionBlip2

Yihua Shao, Hongyi Cai, Wenxin Long, Weiyi Lang, Zhe Wang...

TL;DR本文提出了 AccidentBlip2，一种多模态大型语言模型，用于复杂交通环境中的环境描述和场景理解，并在实时预测事故风险方面表现出色，为自动驾驶事故预测提供了参考解决方案。

Abstract

multimodal large language models (MLLMs) have shown outstanding capabilities in many areas of multimodal reasoning. Therefore, we use the reasoning ability of multimodal large language models for →

multimodal large language models environment description scene understanding accident risk automated driving accident prediction

发现论文，激发创造

基于多模式大型语言模型的交通安全关键事件自动检测

利用多模态大语言模型对自动驾驶视频进行自动分析，以提高安全性和可靠性，确保准确、可靠和可操作的危险检测，并改善安全事件检测和复杂环境交互的理解。

Jun, 2024

探究多模态 LLMs 作为驾驶世界模型

我们评估了多模态大型语言模型（MLLMs）在自动驾驶领域的应用，并挑战和验证了一些常见假设，重点关注它们在封闭环控制环境下通过图像 / 帧序列来推理和解释动态行驶情景的能力。我们的研究揭示了这些模型在预测复杂、动态的驾驶环境中存在的不足，对于描绘动态行为的帧之间能否综合连贯的叙述或逻辑序列存在很大困难。我们通过使用专门设计的模拟器 DriveSim 生成多样化的驾驶情景，进行了一项全面的实验研究来评估各种 MLLMs 作为驾驶世界模型的能力，并为评估驾驶中的 MLLMs 贡献了全面的开源代码和一个新数据集 “Eval-LLM-Drive”。我们的研究结果突出了当前领先的 MLLMs 在真实动态环境中应用能力上的重要差距，强调了需要改进基础模型以提高其在真实世界动态环境中的适用性。

May, 2024

自动驾驶的多模态大型语言模型调查

基于大型语言模型和视觉基础模型的多模态人工智能系统在实时感知、决策和工具控制方面与人类相似，并在自动驾驶和地图系统中引起广泛关注。本文对多模态大型语言模型驱动系统的关键挑战、机会和未来工作进行了系统研究，概述了多模态大型语言模型的背景、发展以及自动驾驶的历史，并总结了在自动驾驶中使用多模态大型语言模型的工具、数据集和基准，同时介绍了第一届大型语言和视觉模型自动驾驶研讨会的相关工作，提出了使用多模态大型语言模型在自动驾驶系统中需要解决的若干重要问题，并呼吁学术界和工业界共同促进该领域的发展。

Nov, 2023

AccidentGPT: 基于 V2X 环境感知的事故分析与预防的多模态大型模型

交通事故一直是交通安全领域的研究重点，然而以往的研究往往孤立进行，缺少综合性的交通安全分析与预防框架。为了填补这一空白，本研究引入了 AccidentGPT，这是一个综合事故分析和预防的多模态大型模型，通过多传感器感知提供全面的事故分析和预防方法，支持自动驾驶车辆、人驾驶车辆和交通管理机构的安全需求。该模型首次将全面场景理解融入交通安全研究。

Dec, 2023

角度俯视注入多模型的全面自主驾驶理解

多模态大语言模型在自动驾驶任务中的应用，使用 NuInstruct 数据集和 BEV-InMLLM 方法进行多视角、时态相关信息的驾驶任务处理，相比现有的大语言模型，BEV-InMLLM 取得约 9% 的性能提升。

Jan, 2024

自动驾驶问答的多帧、轻量级和高效视觉语言模型

EM-VLM4AD 是一种轻量级、高效的多帧视觉语言模型，用于自动驾驶中的视觉问答任务，相较于先前方法，它在内存和浮点运算资源的使用上减少了至少 10 倍，并在 DriveLM 数据集上获得了更高的 BLEU-4、METEOR、CIDEr 和 ROGUE 分数。

Mar, 2024

HiLM-D: 面向自动驾驶的多模态大型语言模型的高分辨率理解

自动驾驶系统中使用分离的模型进行不同任务，我们提出 HiLM-D 方法，通过整合多模态大型语言模型（MLLMs）来联合多个自动驾驶任务，特别是解决了低分辨率信息影响多模态大型语言模型在 ROLISP 任务中的效果问题，实验结果显示 HiLM-D 在 ROLISP 任务中取得了显著的提升。

Sep, 2023

事故 GPT：用于交通事故分析的大型多模态基础模型

交通事故分析是提升公共安全和制定道路规章的关键。本文介绍了 AccidentGPT 的概念，它是一个交通事故分析的基础模型，可以通过多模态输入数据自动重建事故过程视频，并提供多任务分析和多模态输出。AccidentGPT 的设计包括多模态输入、任务导向的自适应性、标记和未标记数据的混合训练模式以及边缘 - 云拆分配置，以实现数据隐私保护。为了充分实现此模型的功能，我们提出了一些研究机会。本文作为填补传统交通事故分析方法的空白和引起研究界对自动、客观和隐私保护的交通事故分析的关注的基石。

Jan, 2024

智慧城市交通：用深度学习集成方法进行交通事故检测

本研究对现有的事故检测技术进行了全面的探索研究，重点介绍了尾部碰撞、侧面碰撞和正面碰撞等不同类型的交通事故，并引入了适用于智慧城市交通监控系统的 I3D-CONVLSTM2D 模型架构，结合 RGB 帧和光流信息进行事故检测。实验分析验证了该方法的有效性，该模型在平均精度（Mean Average Precision，MAP）方面表现优异，达到了 87%。同时，本研究还详细阐述了数据不平衡在有限数据集、道路结构和交通场景方面带来的挑战，最终为基于视觉的事故检测系统在智慧城市基础设施中实时集成到边缘物联网设备提供了路径指引。

Oct, 2023

DriveVLM：自动驾驶与大型视觉语言模型的融合

DriveVLM 是一种利用 Vision-Language Models（VLMs）进行场景理解和规划的自动驾驶系统，通过一系列思维链模块实现场景描述、分析和层次规划，并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制，实现了稳健的空间理解和实时推理速度，通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验，证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。

Feb, 2024