多模态融合 Transformer 用于端到端自动驾驶
该研究介绍了 TransFuser - 一种使用自我注意力机制将图像和雷达的信息进行融合,以提高自动驾驶中辨识物体和行驶路径的性能,实验证明该方法的表现在 CARLA 排行榜上优于以往所有的算法。
May, 2022
该论文介绍了一种使用 Transformer 模块在多个分辨率上有效合并局部和全局上下文关系的相机和 LiDAR 数据融合方法,并通过与两个具有长途路线和高密度交通的对抗基准的广泛实验证实了该方法的性能优势。与之前的方法相比,该方法在最具挑战性的基准测试中取得了显著更高的驾驶和违规得分,对于 Longest6 和 Town05 Long 基准测试,分别取得了 8% 和 19% 的提升。
Aug, 2023
传感器融合在智能自驾代理中是关键,本文通过融合辅助任务和利用模仿学习来改进基础网络以提高道路导航的安全性和完整性。
Aug, 2023
通过引入 LeTFuser 算法,利用 Convolutional vision Transformer 实现多个 RGB-D 相机表示的融合,以解决端到端自动驾驶中涉及多个动态主体的复杂场景下现有传感器融合技术在模仿学习中的不足,并通过多任务学习在感知和控制任务之间同时进行相关处理。
Oct, 2023
本文提出了一种新颖的基于特征融合的多传感器融合技术,结合仿真学习实现端到端自动驾驶导航。论文的重点在于 Lidar 和 RGB 信息的融合技术,同时提出基于惩罚的仿真学习方法,以加强模型对交通规则的遵守,并统一仿真学习和自动驾驶指标的目标。
Mar, 2023
本文提出了一种名为 Interpretable Sensor Fusion Transformer (InterFuser) 的安全增强自动驾驶框架,可完全处理和融合来自多模态多视角传感器的信息,实现全面的场景理解和对抗事件检测,在 CARLA 基准测试中表现优异,并提供了中间可解释特征用于更好地限制行动。
Jul, 2022
本研究旨在利用深度学习和多模态传感器融合技术提高端到端自动驾驶的性能和泛化能力,通过同时实现场景理解和车辆控制命令的像素级语义分割来测试该深度学习驱动的自动驾驶模型在高度逼真的仿真城市驾驶条件下的性能和通用能力,结果显示,该模型定位和避障等任务的成功率强于先前的模型,并验证了多模态传感器融合和场景理解子任务的协同作用提高了模型的性能和可行性。
May, 2020
本研究中,我们提出了一个基于 Transformer 的 LiDAR-Inertial 融合(即 TransFusionOdom)的端到端受监督的 odom 估计框架,用于解决传感器融合中的挑战性问题。我们提出的多注意力融合模块可展示多种同构和异构融合策略,以解决盲目增加模型复杂性带来的过拟合问题,而且使用了一种通用的可视化方法来说明基于 Transformer 的多模态交互学习过程。我们公开了一个综合多模态数据集以验证传感器融合贡献的通用性,并在 KITTI 数据集上进行了定量和定性 odom 评估,结果表明与其他相关工作相比,我们提出的 TransFusionOdom 具有更好的性能。
Apr, 2023
提出了一种多模态融合变压器,结合驾驶员注意力用于自动驾驶,通过 Lidar-Vision-Attention-based Fusion 模块更好地融合多模态数据,并实现不同模态之间更高的对齐,同时结合驾驶员的注意力,赋予自动驾驶车辆类似于人类的场景理解能力,准确识别复杂场景中的关键区域,确保安全。在 CARLA 模拟器上进行实验,以较少的数据在闭环基准测试中取得了最先进的性能。
Mar, 2024
本文针对自动驾驶感知任务中存在的多模态融合问题进行文献综述,分析超过 50 篇包括 LiDAR 和相机在内的感知传感器解决目标检测和语义分割任务的方法,并提出一种更合理的分类方法。
Feb, 2022