基于视觉驱动的二维监督微调框架用于鸟瞰视角感知

Sep, 2024

基于视觉驱动的二维监督微调框架用于鸟瞰视角感知

Vision-Driven 2D Supervised Fine-Tuning Framework for Bird's Eye View Perception

Lei He, Qiaoyi Wang, Honglin Sun, Qing Xu, Bolin Gao...

TL;DR本研究解决了鸟瞰视角感知在缺乏激光雷达数据的情况下的基准问题，提出了一种基于视觉二维语义感知的微调方法，以增强模型在新场景数据中的泛化能力。研究表明，该方法显著降低了对高成本鸟瞰视角真实数据的依赖，并展示了良好的工业应用前景。

Abstract

Visual bird's eye view (BEV) perception, due to its excellent perceptual capabilities, is progressively replacing costly LiDAR-based perception systems, especially in the realm of urban intelligent driving. However, this type of perception still relies on LiDAR data to construct ground truth databases, a process that is both cumbersome and time-consuming. Mo

发现论文，激发创造

自动驾驶中多视角传感器数据融合提升感知和预测

本文提出了一种利用多视角 LiDAR 返回和摄像头图像的终端到终端物体检测和轨迹预测方法，使用 Bird's-Eye View (BEV) 网络的状态 -of-the-art 融合历史 LiDAR 数据和高清地图的体素化特征来执行检测和预测任务。在此基础上，我们使用 LiDAR Range-View （RV）功能扩展了此模型，使用 LiDAR 原始信息的非量化表示。RV 特征图被投影到 BEV 中，并与计算自 LiDAR 和高清地图的 BEV 特征融合。最终输出检测和轨迹，这是一个单一的可训练终端到终端网络。在实际的无人驾驶车辆数据和公共 nuScenes 数据集上，所提出的多视角融合方法的表现都优于最先进的技术，并且增加了较少的计算成本。

Aug, 2020

BEVFormer: 基于时空Transformer通过多相机图像学习鸟瞰视角表示

本文提出了新的BEVFormer框架，该框架学习使用时空变形器的统一BEV表示，以支持多个自主驾驶感知任务。在nuScenes测试集中，该方法达到了56.9％的最新技术水平，且在低能见度条件下显着提高了速度估计和对象召回的准确性。

Mar, 2022

BEVerse: 基于鸟瞰视角的统一感知和预测，用于以视觉为中心的自动驾驶

该研究提出了基于多相机系统的统一三维感知和预测框架BEVerse，通过对多相机视频生成空间 - 时间鸟瞰（BEV）表示，并同时推理多个自动驾驶视觉任务，通过在nuScenes数据集上的实验表明，与现有的单任务方法相比，多任务BEVerse在3D物体检测，语义地图构建和运动预测方面表现更好，同时比时序范例更加高效。

May, 2022

BEVFusion: 多任务多传感器融合及其基于统一俯视图的表示

本研究提出BEVFusion，这是一种有效和通用的多任务多传感器融合框架，通过在共享的鸟瞰图表示空间中统一多模态特征，从根本上支持不同的3D感知任务，并在nuScenes上创立了新的技术水平

May, 2022

从鸟瞰感知的恶魔深入探索：综述、评估与方法

本文综述了关于Bird's-eye-view（BEV）感知的最新研究工作，探讨了多传感器融合、BEV视角下物体检测与定位等关键问题，并介绍了一系列实用的指南和工具来提高BEV任务的性能，最后指出了该领域未来的研究方向。

Sep, 2022

LiDAR2Map: 在线相机蒸馏下基于LiDAR的语义地图构建之辩

本文提出了一种有效的基于LiDAR的语义地图构建方法，其中引入了一个BEV金字塔特征解码器来学习强大的多尺度BEV特征，以大大提高基于LiDAR的方法的准确性；此外，还提出了在线相机到LiDAR蒸馏方案来促进从图像到点云的语义学习，通过对挑战性nuScenes数据集的实验结果，证明了该方法在自动驾驶中的有效性。

Apr, 2023

LiDAR-BEVMTN：用于自动驾驶的实时激光雷达鸟瞰式多任务感知网络

LiDAR在自动驾驶中具有重要作用，本文提出了一种基于LiDAR的实时多任务卷积神经网络，用于对象检测、语义分割和运动分割，并在汽车级嵌入式平台上实现了3ms延迟，取得了语义分割和运动分割的最新成果以及3D物体检测的接近最新成果。

Jul, 2023

Talk2BEV: 自然语言增强的自动驾驶鸟瞰地图

Talk2BEV是一个面向自动驾驶环境中鸟瞰地图的大规模视觉语言模型接口。它将语言和视觉模型与BEV结构化地图相结合，消除了任务特定模型的需求，从而能够满足各种自动驾驶任务，包括视觉和空间推理、预测交通参与者的意图以及基于视觉线索的决策。在大量场景理解任务上对Talk2BEV进行了广泛评估，并发布了包含1000个人工注释的BEV场景的基准数据集Talk2BEV-Bench，其中包含超过20,000个问题和真实答案。

Oct, 2023

自动驾驶的分层和解耦的BEV感知学习框架

该研究提出一种新的分层鸟瞰感知范式，通过使用深度学习和多模块学习方法，实现了自主驾驶系统中感知算法的快速构建和性能提升。

Jul, 2024

BEVal：自主驾驶中鸟瞩视图分割模型的跨数据集评估研究

本研究解决了现有鸟瞩视图分割模型在多样环境和传感器设置下的泛化性能问题，该领域目前多集中于单一数据集上的神经网络模型优化。通过跨数据集评估和多数据集训练实验，本文展示了不同传感器对模型表现的影响，强调了增强模型适应性的重要性，以提升自主驾驶中鸟瞩视图分割的可靠性。

Aug, 2024