MaskFuser: 联合多模态符号化的遮罩融合用于端到端自动驾驶

May, 2024

MaskFuser: 联合多模态符号化的遮罩融合用于端到端自动驾驶

MaskFuser: Masked Fusion of Joint Multi-Modal Tokenization for End-to-End Autonomous Driving

Yiqun Duan, Xianda Guo, Zheng Zhu, Zhen Wang, Yu-Kai Wang...

TL;DR提出了一种名为 MaskFuser 的多模态驾驶框架，在统一的语义特征空间中将各种模态标记化，并为进一步行为克隆提供联合表示。通过引入跨模态的掩蔽自编码器训练，增强了融合表示。MaskFuser 在伤害感知输入下提高了驾驶稳定性，并在驾驶得分方面表现优于以往的基线模型。

Abstract

Current multi-modality driving frameworks normally fuse representation by utilizing attention between single-modality branches. However, the existing networks still suppress the driving performance as the Image a

multi-modality driving frameworks maskfuser behavior cloning masked fusion

发现论文，激发创造

多模态融合 Transformer 用于端到端自动驾驶

本文提出使用多模态融合转换器 TransFuser 对图像和 LiDAR 传感器的信息进行整合以实现先进的自动驾驶技术，在 CARLA 城市驾驶模拟器中实验验证证明该方法在处理复杂场景时比传统基于几何的融合方法有更好的效果，并且在减少碰撞方面表现出色。

Apr, 2021

视觉 Transformer 的多模态 Token 融合

本文提出了一个针对基于 Transformer 的视觉任务的多模态令牌融合方法（TokenFusion），可以在保持单模态 Transformer 结构基本不变的同时，学习多模态特征之间的相关性，并超越三个典型视觉任务中的最先进方法。

Apr, 2022

FusionAD: 自动驾驶的预测和规划任务的多模态融合

FusionAD 是第一个将相机和激光雷达传感器融合的统一框架，通过多模态特征的优势，在感知任务中实现了领先水平。

Aug, 2023

Fus-MAE：一种基于交叉注意力的遥感掩码自编码器数据融合方法

Fus-MAE is a self-supervised learning framework based on masked autoencoders that performs data fusion between synthetic aperture radar and multispectral optical data, effectively competing with contrastive learning strategies in SAR-optical data fusion.

Jan, 2024

TransFuser：基于 Transformer 传感器融合的自动驾驶模仿

该研究介绍了 TransFuser - 一种使用自我注意力机制将图像和雷达的信息进行融合，以提高自动驾驶中辨识物体和行驶路径的性能，实验证明该方法的表现在 CARLA 排行榜上优于以往所有的算法。

May, 2022

基于语义引导的基于 Transformer 的传感器融合用于改进航点预测

传感器融合在智能自驾代理中是关键，本文通过融合辅助任务和利用模仿学习来改进基础网络以提高道路导航的安全性和完整性。

Aug, 2023

基于多模态传感器融合的深度神经网络用于端到端自主驾驶和场景理解

本研究旨在利用深度学习和多模态传感器融合技术提高端到端自动驾驶的性能和泛化能力，通过同时实现场景理解和车辆控制命令的像素级语义分割来测试该深度学习驱动的自动驾驶模型在高度逼真的仿真城市驾驶条件下的性能和通用能力，结果显示，该模型定位和避障等任务的成功率强于先前的模型，并验证了多模态传感器融合和场景理解子任务的协同作用提高了模型的性能和可行性。

May, 2020

自主驾驶的空间编码传感器融合

该论文介绍了一种使用 Transformer 模块在多个分辨率上有效合并局部和全局上下文关系的相机和 LiDAR 数据融合方法，并通过与两个具有长途路线和高密度交通的对抗基准的广泛实验证实了该方法的性能优势。与之前的方法相比，该方法在最具挑战性的基准测试中取得了显著更高的驾驶和违规得分，对于 Longest6 和 Town05 Long 基准测试，分别取得了 8% 和 19% 的提升。

Aug, 2023

4M：大规模多模态蒙版建模

通过提出一种名为 4M 的多模态训练方案，将文本、图像、几何和语义模态，以及神经网络特征图等多种输入 / 输出模态统一到一个 Transformer 编码器 - 解码器模型中进行训练，论文展示了 4M 在训练多功能且可扩展的视觉基础模型方面的潜力和优势，并为多模态学习在视觉和其他领域的进一步探索提供了基础。

Dec, 2023

多模态掩模自编码器学习可转移表示

本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE)，能在不引入偏好于数据增强的对比学习目标的情况下，学习出适用于下游任务的可传递表示，并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练，具有可扩展性和灵活性。

May, 2022