基于视觉的三视角视图的 3D 语义占用预测
本研究针对自主驾驶系统中对三维场景的整体理解和推理的重要性展开研究,将三维语义占据预测作为自主驾驶和机器人下游任务的预训练任务,与三维检测等方法相比,它更准确地捕捉了三维细节。现有方法主要关注空间线索,而忽视了时间线索。基于查询的方法常常使用计算密集的体素表示对三维场景信息进行编码。本研究介绍了 S2TPVFormer,它是 TPVFormer 的扩展,利用时空变换器结构进行一致的三维语义占据预测。强调了时空线索在三维场景感知中的重要性,特别是在三维语义占据预测中,我们的工作探索了较少研究的时间线索领域。通过利用三视角视图(Tri-Perspective View,简称 TPV)表示,我们的时空编码器生成具有时间上下文的嵌入,提高了预测的一致性,同时保持了计算效率。为了实现这一点,我们提出了一种新颖的时空跨视图混合注意机制(Temporal Cross-View Hybrid Attention,简称 TCVHA),促进了 TPV 视图之间的有效时空信息交流。对 nuScenes 数据集的实验评估表明,与 TPVFormer 相比,提出的 S2TPVFormer 在三维语义占据上取得了 3.1% 的平均交集联合(mIoU)改进,验证了其提高三维场景感知效果的有效性。
Jan, 2024
自动驾驶中的语义分割已由稀疏点分割演变为密集体素分割,我们提出了圆柱三视角视图和 PointOcc 模型来代表点云并高效处理,实验结果表明 PointOcc 在速度方面比其他方法更快且性能更好。
Aug, 2023
提出基于前视单目图像的局部鸟瞰地图重建新框架,利用前向到俯视图像变换(FTVP)模块中的多尺度设计和周期性一致性约束,实现低成本高效的道路与汽车区域感知以及多类别场景理解。在公共基准测试中,该方法在道路布局估计,车辆占用估计和多类别语义估计任务中均达到了最先进的性能,并且在多类别语义估计中优于所有竞争对手。
Nov, 2022
提出了 SparseOcc,一种受稀疏点云处理启发的高效占据网络,利用了无损稀疏潜在表示的三个关键创新。通过空间分解的 3D 稀疏卷积核执行潜在补全的 3D 稀疏扩散器;通过特征金字塔和稀疏插值从其他尺度获取信息;将 Transformer 头改造为稀疏变种。SparseOcc 在 FLOP 上实现了惊人的 74.9% 减少,同时在精确度上有所提高。
Apr, 2024
通过整合鸟瞰图的 3D 特征和传统 2D 视角图像特征,我们提出了一个名为 DuoSpaceNet 的方法,实现了在 nuScenes 数据集上的 3D 物体检测和鸟瞰图分割的最新成果。
May, 2024
本文提出了一种利用几何信息通过参数化深度分布建模来进行图像特征转换的方法,通过将 2D 图像特征提升到自车定义的三维空间,并根据深度导出的三维空间占用情况将三维特征体积聚合到鸟瞰视图中进行特征转换,以解决自动驾驶中图像特征转换的瓶颈问题。进一步,在语义分割中提出了一种可靠的可见性感知评估度量,通过考虑该度量可以减轻幻觉问题,并在 nuScenes 数据集上的目标检测和语义分割实验中验证了方法的优越性。
Jul, 2023
在自动驾驶中,通过分析网络效应和延迟,本文提出了一种名为 FastOcc 的新方法,通过用轻量级的 2D BEV 卷积网络代替时间消耗较大的 3D 卷积网络,加快模型的推理速度,同时保持准确性,从而实现了优越的性能。
Mar, 2024
本文探讨了采用鸟瞰图在 360 度视觉地点识别(VPR)中的优势,提出了一种利用 BEV 表示的新型网络架构,该架构将视觉线索和空间感知进行桥接,并在两个数据集上进行了验证。
May, 2023
自主驾驶中感兴趣的 3D 占据预测,通过其出色的几何认知和一般物体识别能力来推动。为了实现这一点,当前的工作试图构建从鸟瞰图感知扩展的三透视视图(TPV)或占据(OCC)表示。然而,像 TPV 表示这样的压缩视图会丢失 3D 几何信息,而原始和稀疏的 OCC 表示则需要大量但冗余的计算成本。为了解决上述限制,我们提出了一种紧凑的占据转换器(COTR),它具有一个具有几何意识的占据编码器和一个语义意识的组解码器来重建紧凑的 3D OCC 表示。经验性实验表明,在多个基线上有明显的性能提升,例如,COTR 相对改进 8%-15%,证明了我们方法的优越性。
Dec, 2023
本文综述了关于 Bird's-eye-view(BEV)感知的最新研究工作,探讨了多传感器融合、BEV 视角下物体检测与定位等关键问题,并介绍了一系列实用的指南和工具来提高 BEV 任务的性能,最后指出了该领域未来的研究方向。
Sep, 2022