基于鸟瞰图表示的内容感知多模态联合输入修剪学习

Oct, 2024

基于鸟瞰图表示的内容感知多模态联合输入修剪学习

Learning Content-Aware Multi-Modal Joint Input Pruning via Bird's-Eye-View Representation

Yuxin Li, Yiheng Li, Xulei Yang, Mengying Yu, Zihang Huang...

TL;DR本文研究针对自动驾驶中鸟瞰图（BEV）表示方法引发的多模态传感器输入融合计算负担问题，提出了一种创新的内容感知多模态联合输入修剪技术。该方法在保持感知准确性的同时，显著提升了计算效率，且为输入修剪领域开辟了新的研究方向。

Abstract

In the landscape of autonomous driving, Bird's-Eye-View (BEV) representation has recently garnered substantial academic attention, serving as a transformative framework for the fusion of multi-modal sensor inputs. This BEV paradigm effectively shifts the →

发现论文，激发创造

自动驾驶中多视角传感器数据融合提升感知和预测

本文提出了一种利用多视角 LiDAR 返回和摄像头图像的终端到终端物体检测和轨迹预测方法，使用 Bird's-Eye View (BEV) 网络的状态 -of-the-art 融合历史 LiDAR 数据和高清地图的体素化特征来执行检测和预测任务。在此基础上，我们使用 LiDAR Range-View （RV）功能扩展了此模型，使用 LiDAR 原始信息的非量化表示。RV 特征图被投影到 BEV 中，并与计算自 LiDAR 和高清地图的 BEV 特征融合。最终输出检测和轨迹，这是一个单一的可训练终端到终端网络。在实际的无人驾驶车辆数据和公共 nuScenes 数据集上，所提出的多视角融合方法的表现都优于最先进的技术，并且增加了较少的计算成本。

Aug, 2020

BEVFormer: 基于时空Transformer通过多相机图像学习鸟瞰视角表示

本文提出了新的BEVFormer框架，该框架学习使用时空变形器的统一BEV表示，以支持多个自主驾驶感知任务。在nuScenes测试集中，该方法达到了56.9％的最新技术水平，且在低能见度条件下显着提高了速度估计和对象召回的准确性。

Mar, 2022

BEVerse: 基于鸟瞰视角的统一感知和预测，用于以视觉为中心的自动驾驶

该研究提出了基于多相机系统的统一三维感知和预测框架BEVerse，通过对多相机视频生成空间 - 时间鸟瞰（BEV）表示，并同时推理多个自动驾驶视觉任务，通过在nuScenes数据集上的实验表明，与现有的单任务方法相比，多任务BEVerse在3D物体检测，语义地图构建和运动预测方面表现更好，同时比时序范例更加高效。

May, 2022

BEVFusion: 多任务多传感器融合及其基于统一俯视图的表示

本研究提出BEVFusion，这是一种有效和通用的多任务多传感器融合框架，通过在共享的鸟瞰图表示空间中统一多模态特征，从根本上支持不同的3D感知任务，并在nuScenes上创立了新的技术水平

May, 2022

UniFusion：用于鸟瞰图空时表示的统一多视角融合变压器

本文提出一种新的空时融合BEV表征方法，可支持长距离融合，具有时变自适应权重，有效避免传统方法中的信息丢失和充分利用功能，同时实现地图分割任务的最优性能。

Jul, 2022

从鸟瞰感知的恶魔深入探索：综述、评估与方法

本文综述了关于Bird's-eye-view（BEV）感知的最新研究工作，探讨了多传感器融合、BEV视角下物体检测与定位等关键问题，并介绍了一系列实用的指南和工具来提高BEV任务的性能，最后指出了该领域未来的研究方向。

Sep, 2022

揭示过去信息：合作式鸟瞰预测的时态嵌入

通过将历史线索整合到当前 BEV 地图中，TempCoBEV 能够在协作感知中改进 BEV 地图分割的质量和可靠性。在 OPV2V 数据集上进行的广泛实验表明，TempCoBEV 在预测当前和未来的 BEV 地图分割方面比非时态模型表现更好，特别是在涉及通信故障的情景中，其整合历史线索到当前 BEV 地图的能力使预测结果在最佳通信条件下提高 2%，在通信故障下提高 19%。

Jan, 2024

自动驾驶的分层和解耦的BEV感知学习框架

该研究提出一种新的分层鸟瞰感知范式，通过使用深度学习和多模块学习方法，实现了自主驾驶系统中感知算法的快速构建和性能提升。

Jul, 2024

OE-BevSeg: 面向对象和环境感知的多模态框架，用于鸟瞰视角车辆语义分割

OE-BevSeg是一种全局环境感知和局部目标物体增强的多模态框架，通过环境感知的Bird's-eye-view语义分割压缩器和中心信息引导的目标物体增强模块，以及多视角RGB图像特征与雷达/LiDAR特征的多模态融合分支，极大地提高了自主驾驶领域中Bird's-eye-view语义分割任务的性能。

Jul, 2024

揭开黑箱：鸟瞰视角感知模型的独立功能模块评估

本研究针对自主驾驶感知模型内部机制不透明的问题，提出了鸟瞰视角感知模型的独立功能模块评估框架（BEV-IFME）。该框架通过比较功能模块特征图与真实值之间的相似度，为个别功能模块的训练成熟度提供量化评估，结果显示其与BEV指标之间存在高度正相关，证实了框架的评估可靠性。

Sep, 2024