- DuoSpaceNet:利用鸟瞰和透视视图表示的三维物体检测
通过整合鸟瞰图的 3D 特征和传统 2D 视角图像特征,我们提出了一个名为 DuoSpaceNet 的方法,实现了在 nuScenes 数据集上的 3D 物体检测和鸟瞰图分割的最新成果。
- 路边单目三维检测通过 2D 检测提示
通过使用 2D 检测作为指令,我们提出了一种新颖且简单的方法来解决沿路单目三维检测问题,该方法在两个大规模路边三维检测基准上取得了当前最先进的性能。
- GraphBEV:面向多模态三维物体检测的鲁棒 BEV 特征对齐
本文提出了一种名为 Graph BEV 的稳健融合框架,通过解决 LiDAR 和相机 BEV 特征之间的不准确对齐问题,实现了最先进的性能,mAP 为 70.1%,超过了 BEV Fusion 1.6%,在存在不对齐噪声的条件下超过 BEV - 利用掩码特征重建提炼三维物体检测的时间知识
通过知识蒸馏,从少量的帧中获取来自教师探测器的长期记忆,以平衡鸟瞰图 3D 目标检测中的精确性和效率,并通过生成器产生用于重建学生特征的新特征。在学生模型中输入完整帧时还探索了时间关系知识。在 nuScenes 基准测试上验证了该方法的有效 - BEVScope:增强动态情况下自监督深度估计,利用鸟瞰图
介绍了一种基于自监督学习的深度估计方法,使用 Bird's-Eye-View 特征处理动态物体,应用于自动驾驶和机器人系统,获得了具有竞争力的性能。
- MV-Map: 多视角一致性离线高精度地图生成
本文提出了一种名为 MV-Map 的离线管道,能够有效地生成高清地图,并优化了离线管道的流程。通过聚合所有航空预测的帧,根据不确定性网络赋权重,实现了多视图一致性的增强。在 nuscenes 数据集上的实验证明了本文方法有效性的同时,也突显 - 双视角贴图:自动驾驶整体 BEV 语义地图
提出了一个全局视角和局部先验知识相结合的双映射框架 (Bi-Mapper),包括异步相互学习策略和横跨空间损失函数 (ASL),旨在提高自动驾驶系统中道路场景语义理解的可靠性,并在 nuScenes 和 Cam2BEV 数据集上进行了验证。
- 跨尺度分层 Transformer 结合语义对应增强注意力用于推断鸟瞰视角语义分割
本研究提出了一种基于跨尺度分层 Transformer 和对应增强注意力的语义分割训练方法,针对使用多相机视图图像进行 Bird's-eye-view(BEV)语义分割的问题,并在大量实验中证明了其性能优越性。
- CVPR自主驾驶中基于鸟瞰图表示的 3D 物体检测鲁棒性研究
本文评估了多种具有代表性的模型在各种情况下的自然和对抗鲁棒性,以全面了解它们如何受到包含和不包含 Bird's-Eye-View 特征的影响,重点关注自主驾驶安全问题,发现了一些警示性的结论。
- 基于摄像机的 3D 物体检测的对抗鲁棒性
该研究考察了基于相机的 3D 物体检测方法在不同对抗条件下的鲁棒性,并发现了提高鲁棒性的关键因素,包括准确的深度估计、鸟瞰图表示法、多帧输入等,为今后设计具有改进的鲁棒性的基于相机的物体检测模块提供指导。
- X-Align: 鸟瞰视角分割的跨模态跨视图对齐
本文提出了一种新颖的端到端跨模态和跨视角学习框架 X-Align,用于鸟瞰图分割,通过增强单模态特征之间的对齐,改进多模态特征的融合以及优化视角变换,该方法在 nuScenes 和 KITTI-360 两个常用的基准数据集上均有显著优势。
- LaRa: 多摄像头鸟瞰语义分割的潜在特征与光线
本文提出了一种基于编码解码器的自主行驶多摄像头车辆语义分割模型 LaRa,使用跨注意力机制将多个传感器的信息聚合成一组紧凑、丰富的潜在表示,进而在 BEV 空间中再次重投影,证明该模型在 nuScenes 上优于之前使用 Transform - CVPR从单个车载摄像头图像中保持拓扑结构的本地道路网络估计
该研究旨在从单个摄像头图像中直接提取局部道路网络拓扑,使用最小回路及其覆盖来表示道路拓扑,以监督深度神经网络的学习,以实现自主规划和导航。结果表明,与基准相比,该方法在 NuScenes 和 Argoverse 基准测试上的表现显著优越。
- ICCV车载图像的结构化鸟瞰交通场景理解
本论文研究使用单个车载相机图像提取代表局部道路网络的有向图,以及在鸟瞰视角下检测动态物体的问题,并验证了该方法优于基线模型的有效性。
- CVPR使用几何和语义点云进行鸟瞰图语义分割
本文介绍了使用车载摄像头拍摄的 RGB 图像进行鸟瞰视角像素级别的物体语义分割的方法,为了解决这个问题,提出了一种新的两阶段感知管道,它明确预测像素深度,并将它们与像素语义结合起来进行有效的推断,同时,使用抽象的高层几何特征进行转移学习,方