分而治之：利用2D语义深度先验和输入依赖查询改善多摄像头3D感知

Aug, 2024

分而治之：利用2D语义深度先验和输入依赖查询改善多摄像头3D感知

Divide and Conquer: Improving Multi-Camera 3D Perception with 2D Semantic-Depth Priors and Input-Dependent Queries

Qi Song, Qingyong Hu, Chi Zhang, Yongquan Chen, Rui Huang

TL;DR本研究针对多摄像头图像中的3D感知任务，如3D物体检测和鸟瞰视图分割，提出了一种新的输入感知Transformer框架（SDTR），有效整合了语义和深度信息。研究结果表明，该方法在3D物体检测和BEV分割任务上均表现出最先进的性能，显著减少了分类和位置估计错误。

Abstract

3D perception tasks, such as 3D object detection and Bird's-Eye-View (BEV) segmentation using multi-camera images, have drawn significant attention recently. Despite the fact that accurately estimating both seman

发现论文，激发创造

Pri3D：3D先验能够帮助2D表征学习吗？

探讨了利用几何约束来学习视角不变、几何感知表达，通过对RGB-D数据进行对比度学习，实现从3D先验信息到2D表达的迁移，并在语义分割、实例分割、室内物体检测中实现了显著提升。

Apr, 2021

通过3D到2D查询从多视角图像中进行3D物体检测

提出了一种基于多摄像头的 3D 对象检测框架，使用基于上下文注意力的网络，直接在 3D 空间中进行边界框的预测，实现了全球最佳性能。

Oct, 2021

M$^2$BEV：多摄像机联合三维检测和分割，统一鸟瞰视角表示

本文提出了一个称为M2BEV的统一框架，它可以通过多摄像头图像输入在Birds Eye View（BEV）空间中联合执行三维物体检测和地图分割，是一个高效的方法。实验结果表明，M2BEV在3D对象检测和BEV分割方面的性能优于现有技术。

Apr, 2022

深度场网络用于多视角场景的通用表示

提出了一种使用 Transformer 架构学习隐式多视图一致场景表示并引入一系列 3D 数据增强技术的方法来增加视角多样性的深度估计网络，同时介绍了引入视角合成作为辅助任务，该网络在不使用显式几何约束的情况下在立体和视频深度估计方面取得了最先进的结果，并在零样本领域泛化方面有了显著的提高。

Jul, 2022

基于注意力机制的深度蒸馏技术与三维感知位置编码在单目三维物体检测中的应用

提出了一种名为ADD的基于注意力的深度知识蒸馏框架，采用3D感知的位置编码方式，以在KITTI 3D目标检测基准测试上实现单目3D目标检测的最先进性能。

Nov, 2022

面向鸟瞰视角的多视角三维物体检测领域泛化

本论文提出了一种名为DG-BEV的方法，通过将同态转换的测度深度预测转换为尺度不变深度来获得强健的深度预测，并使用单应性进行动态透视增强以增加外参参数的多样性，并通过多个伪域值修改对抗性训练损失来构建特征表示，从而显著减轻了目标领域的性能下降。

Mar, 2023

透视感知卷积在单目三维物体检测中的应用

通过结合透视感知卷积层提取更精确和具有上下文意识的特征，将场景线索建模为准确的深度推断，从而提高单目3D目标检测性能。

Aug, 2023

多视角SAM联合深度预测和语义分割

基于多视角立体视觉和基于Transformer的语义分割解码器的多任务方法在深度预测和分割预测方面呈现出相互的优势。

Oct, 2023

具有结构先验的多摄像头实例感知 3D 目标检测与自我增强学习

提出了一种新方法IA-BEV，它将图像平面实例感知集成到基于BEV的深度估计过程中，通过增强单目深度生成的有效性和鼓励模型在计算密集的时间立体匹配中更加注重具有挑战性的物体，为高质量BEV特征构建提供先进的深度估计结果，从而有利于最终的三维检测。所提出的方法在具有挑战性的nuScenes基准测试中取得了最先进的性能，广泛的实验结果表明了我们设计的有效性。

Dec, 2023

基于混合Transformer的自监督单目深度估计的多先验表示学习

通过利用多个先验知识来增强表示能力，我们提出了一种新颖的自监督单目深度估计模型，以综合提高深度估计的准确性和可靠性。

Jun, 2024