CVPRMar, 2024

安全驾驶感知中的归纳性自我视角事故视频理解

TL;DRMM-AU 是一个多模态事故视频理解的新数据集,包含 11,727 个野外自视角事故视频,每个视频都有与其时间对齐的文本描述。我们注释了超过 2.23 百万个物体框和 58,650 个基于视频的事故原因对,涵盖了 58 个事故类别。MM-AU 支持各种事故理解任务,特别是多模态视频扩散,以理解安全驾驶的事故因果链。通过 MM-AU,我们提出了一种安全驾驶感知的 Abductive 事故视频理解框架 (AdVersa-SD)。AdVersa-SD 通过一种由 Abductive CLIP 模型驱动的对象中心视频扩散 (OAVD) 方法进行视频扩散。该模型通过对正常、几乎事故和事故帧与相应文本描述 (如事故原因、预防建议和事故类别) 的成对共现进行对比交互损失学习,以实现对原始帧背景内容进行修复的视频生成中强制实施因果区域学习,以找到特定事故的主要因果链。大量实验证实了 AdVersa-SD 的推理能力以及 OAVD 相对于最先进的扩散模型的优越性。此外,由于 AdVersa-SD 依赖于精确的物体和事故原因信息,我们还提供了仔细的物体检测和事故原因回答基准评估。