安全驾驶感知中的归纳性自我视角事故视频理解

CVPRMar, 2024

安全驾驶感知中的归纳性自我视角事故视频理解

Abductive Ego-View Accident Video Understanding for Safe Driving Perception

Jianwu Fang, Lei-lei Li, Junfei Zhou, Junbin Xiao, Hongkai Yu...

TL;DRMM-AU 是一个多模态事故视频理解的新数据集，包含 11,727 个野外自视角事故视频，每个视频都有与其时间对齐的文本描述。我们注释了超过 2.23 百万个物体框和 58,650 个基于视频的事故原因对，涵盖了 58 个事故类别。MM-AU 支持各种事故理解任务，特别是多模态视频扩散，以理解安全驾驶的事故因果链。通过 MM-AU，我们提出了一种安全驾驶感知的 Abductive 事故视频理解框架 (AdVersa-SD)。AdVersa-SD 通过一种由 Abductive CLIP 模型驱动的对象中心视频扩散 (OAVD) 方法进行视频扩散。该模型通过对正常、几乎事故和事故帧与相应文本描述 (如事故原因、预防建议和事故类别) 的成对共现进行对比交互损失学习，以实现对原始帧背景内容进行修复的视频生成中强制实施因果区域学习，以找到特定事故的主要因果链。大量实验证实了 AdVersa-SD 的推理能力以及 OAVD 相对于最先进的扩散模型的优越性。此外，由于 AdVersa-SD 依赖于精确的物体和事故原因信息，我们还提供了仔细的物体检测和事故原因回答基准评估。

Abstract

We present mm-au, a novel dataset for Multi-Modal Accident video Understanding. mm-au contains 11,727 in-the-wild ego-view accident videos, each with temporally aligned text descriptions. We annotate over 2.23 mi

mm-au multi-modal accident video understanding abductive accident video understanding framework object-centric video diffusion oavd

发现论文，激发创造

一种记忆增强的多任务协作框架，用于无监督驾驶视频中的交通事故检测

通过多任务协作的记忆增强框架（MAMTCF）来无监督地检测驾驶视频中的交通事故，同时对外观变化和目标运动建模，取得了比现有方法更好的性能。

Jul, 2023

通过多源混合采样和元学习实现事故场景的稳健语义分割

本文提出一种多源元学习无监督域自适应框架（MMUDA）来提高分割转换器到极端事故场景的泛化能力，增强分割骨架，并在 DADA-seg 基准测试中实现 46.97% 的 mIoU 分数，超过先前最先进的模型 7.50% 以上。

Mar, 2022

视觉推理与驾驶危险预测相遇：问题形式化及数据集

本研究旨在通过借助汽车行车记录仪的单个图像，对驾驶中可能遇到的危险进行预测。为了开展这一不常研究的领域，我们创造了一个名为 DHPR 的数据集，其中包含 15K 个街景图像，每张图像都与车速、假设的危险描述和场景中的可见实体相关联。通过评估基线方法在数据集上的表现，我们发现仍存在问题，并讨论了未来的方向。本研究通过引入新的问题形式和数据集，为驾驶危险预测领域做出了贡献，让研究人员能够探索多模态人工智能在此领域的潜力。

Oct, 2023

第一人称视角视频的无监督交通事故检测

本文提出了一种基于未监督学习的方法，通过预测交通参与者未来位置并监测三种不同策略的预测准确度和一致性来检测仪表板安装的摄像头视频中的交通事故。实验结果表明，该方法优于最先进的方法。

Mar, 2019

DeepAccident: V2X 自动驾驶运动与事故预测基准

本文提出了 DeepAccident 数据集，据此可以直接评估不同自动驾驶算法的事故预测能力，这个数据集包含了多种真实世界中常见的事故场景，并提供了可用于感知和预测任务的多视角数据，并展示了基于 V2X 的运动和事故预测任务及 3D 物体检测的基准模型 V2XFormer。

Apr, 2023

DRIVE: 基于深度强化学习的事故预测与视觉解释

本文提出了一种基于深度强化的交通事故预测方法 DRIVE，通过模拟仪表盘观察环境中的视觉注意机制和使用奖励机制改进强化学习算法来提高决策能力，进而实现较高准确性的预测。

Jul, 2021

基于全景监控系统的自动驾驶场景理解网络

本文提出一种新的端到端解决方案，通过识别驾驶车辆在每个方向上最近的障碍物，用于计算最近障碍物的距离，并将其合并到统一的端到端架构中，实现联合物体检测、路缘检测和安全可驾驶区域检测，最终通过相机为基础系统和 3D 对象检测来在停车和行驶模式下实现这些目标的潜力。

May, 2018

AccidentBlip2: 多视角运动检测的事故检测

本文提出了 AccidentBlip2，一种多模态大型语言模型，用于复杂交通环境中的环境描述和场景理解，并在实时预测事故风险方面表现出色，为自动驾驶事故预测提供了参考解决方案。

Apr, 2024

基于记忆增强的在线视频异常检测

该研究介绍了一个名为 MOVAD 的智能汽车实时系统，它利用只能捕捉器固定摄像头拍摄的视频进行信息提取和到不同时间段的信息关联来及时响应异常情况。该系统包含视频分析技术和短期记忆和长期记忆两个部分，能够在 DoTA 数据集的测试中取得比目前同类技术高 2.81 的准确率。

Feb, 2023

MM-AU: 广告视频的多模态理解

广告视频对于互联网电子商务领域至关重要，通过简洁的叙事结构，它们可以将特定产品的影响力扩大到广泛的观众，或者作为提高意识的媒介来引起特定问题的关注。本研究提出了一个多模态多语言的基准模型 MM-AU，通过收集来自多个网络来源的超过 8.4K 个视频（147 小时），以三个重要维度（主题分类、感知色调转变和社会信息检测）促进对广告的理解，并通过在广告剧本上应用大型语言模型来探索多个零 - shot 推理基线。此外，我们证明，在多模态变压器模型中利用音频、视频和文本等多种信号，相比单模态方法，可以提高性能。

Aug, 2023