M2DA：多模态融合 Transformer 结合驾驶员注意力用于自动驾驶

Mar, 2024

M2DA：多模态融合 Transformer 结合驾驶员注意力用于自动驾驶

M2DA: Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving

Dongyang Xu, Haokun Li, Qingfan Wang, Ziying Song, Lei Chen...

TL;DR提出了一种多模态融合变压器，结合驾驶员注意力用于自动驾驶，通过 Lidar-Vision-Attention-based Fusion 模块更好地融合多模态数据，并实现不同模态之间更高的对齐，同时结合驾驶员的注意力，赋予自动驾驶车辆类似于人类的场景理解能力，准确识别复杂场景中的关键区域，确保安全。在 CARLA 模拟器上进行实验，以较少的数据在闭环基准测试中取得了最先进的性能。

Abstract

end-to-end autonomous driving has witnessed remarkable progress. However, the extensive deployment of autonomous vehicles has yet to be realized, primarily due to 1) inefficient multi-modal environment perception

end-to-end autonomous driving multi-modal environment perception non-human-like scene understanding multi-modal fusion transformer lidar-vision-attention-based fusion

发现论文，激发创造

多模态融合 Transformer 用于端到端自动驾驶

本文提出使用多模态融合转换器 TransFuser 对图像和 LiDAR 传感器的信息进行整合以实现先进的自动驾驶技术，在 CARLA 城市驾驶模拟器中实验验证证明该方法在处理复杂场景时比传统基于几何的融合方法有更好的效果，并且在减少碰撞方面表现出色。

Apr, 2021

FusionAD: 自动驾驶的预测和规划任务的多模态融合

FusionAD 是第一个将相机和激光雷达传感器融合的统一框架，通过多模态特征的优势，在感知任务中实现了领先水平。

Aug, 2023

使用遮蔽的多头自注意力的强健多视角多模式驾驶员监测系统

本文提出了一种基于多头自我注意力的多视角多模式驾驶员监控系统和 GPU 友好型监督对比学习框架 SuMoCo，用于对驾驶员行为进行多类别识别，在 DAD 数据集上的实验证明，所提出的 MHSA 融合方法（AUC-ROC：97.0％）优于所有基线和先前的方法，通过使用补丁屏蔽训练后的 MHSA 能够提高其抗模态 / 视角崩溃能力。

Apr, 2023

M$^2$DAR：基于 Vision Transformer 的多视角多尺度驾驶员动作识别

提出了一个名为 M2DAR 的多视角、多尺度框架，利用计算机视觉技术实现自然驾驶动作识别和定位来保障交通安全，特别关注于检测分心驾驶行为，其核心特征在于一个具有权重共享、多尺度 Transformer-based 动作识别网络，并提出了一个新的选举算法从多个视角综合整合和选择动作识别模块的初步结果，实验表明该方法在第 7 届 AI City Challenge Track 3 数据集上实现了 0.5921 的重叠分数。

May, 2023

多关注融合的疲劳驾驶检测模型

司机疲劳驾驶是交通事故的主要原因之一，通过引入多关注融合疲劳驾驶检测模型（MAF），可以显著提升分类性能，特别是在部分面部遮挡和低光照条件下，从而在提高算法整体稳健性方面发挥更大作用。通过在夜间和白天的光照条件下采集真实世界的数据集，我们进行了一系列综合实验，结果显示我们提出的模型达到了 96.8% 的司机疲劳检测准确率。

Dec, 2023

自主驾驶的深度多模态物体检测和语义分割：数据集、方法和挑战

本文介绍了最近在深度学习领域取得的自主驾驶感知技术。对于实现强大而准确的场景理解，自动驾驶车辆通常配备多种传感器 (例如相机、激光雷达、雷达)，并且可以将多种感知模式融合以利用它们的互补性。然而，网络架构设计方面缺乏通用指导方针，关于 “何时融合” 和 “如何融合” 等问题仍然存在争议。本文系统地总结了方法学和讨论了自主驾驶中深度多模式对象检测和语义分割的挑战。

Feb, 2019

利用任务适应性注意力生成器的实时自主驾驶多任务学习

本文介绍了一种新的实时多任务网络，包括单目三维物体检测、语义分割和密集深度估计，通过引入任务自适应注意力生成器来解决多任务学习中普遍存在的负迁移问题，并利用硬参数共享方法提高效率，能够同时处理多个任务，尤其是三维物体检测，并保持实时处理速度。经过在 Cityscapes-3D 数据集上的严格优化和深入剖析研究，我们的网络始终优于各种基准模型。

Mar, 2024

多模态端到端自主驾驶

本文提出并分析了终端到终端驾驶中，结合 RGB 和深度信息数据的多模态方案，以期提高自动驾驶 AI 模型的性能。通过模拟和条件模仿学习，证明了采用早期融合多模态方案，可以超越采用单模态的性能表现。

Jun, 2019

自动驾驶感知的多模态传感器融合技术综述

本文针对自动驾驶感知任务中存在的多模态融合问题进行文献综述，分析超过 50 篇包括 LiDAR 和相机在内的感知传感器解决目标检测和语义分割任务的方法，并提出一种更合理的分类方法。

Feb, 2022

基于多模态传感器融合的深度神经网络用于端到端自主驾驶和场景理解

本研究旨在利用深度学习和多模态传感器融合技术提高端到端自动驾驶的性能和泛化能力，通过同时实现场景理解和车辆控制命令的像素级语义分割来测试该深度学习驱动的自动驾驶模型在高度逼真的仿真城市驾驶条件下的性能和通用能力，结果显示，该模型定位和避障等任务的成功率强于先前的模型，并验证了多模态传感器融合和场景理解子任务的协同作用提高了模型的性能和可行性。

May, 2020