PETR：用于多视角 3D 物体检测的位置嵌入转换

ECCVMar, 2022

PETR：用于多视角 3D 物体检测的位置嵌入转换

PETR: Position Embedding Transformation for Multi-View 3D Object Detection

Yingfei Liu, Tiancai Wang, Xiangyu Zhang, Jian Sun

TL;DR本文提出了一种基于位置嵌入的转换方法，用于多视角三维目标检测，该方法将三维坐标的位置信息编码到图像特征中，生成三维位置感知特征，能够完成端到端的目标检测。实验结果表明，该方法在标准 nuScenes 数据集上达到了最先进的性能，是未来研究的简单而强大的基线模型。

Abstract

In this paper, we develop position embedding transformation (PETR) for multi-view 3d object detection. PETR encodes the position information of 3D coordinates into image features, producing the →

position embedding transformation multi-view 3d object detection 3d position-aware features end-to-end object detection nuscenes dataset

发现论文，激发创造

PETRv2: 多摄像头图像三维感知的统一框架

本文提出了 PETRv2，这是一个统一的框架，用于从多视角图像中进行三维感知，基于 PETR，PETRv2 利用先前帧的时间信息进行了时间建模，扩展了 PETR 中的 3D 位置嵌入。PETRv2 提出了一种简单而有效的解决方案，并通过引入任务特定查询来支持多任务学习，PETRv2 在三维物体检测、BEV 分割和三维车道检测方面取得了最先进的表现。

Jun, 2022

多角度三维物体检测的相机视角位置嵌入

本文提出了一种基于相机视图位置编码（CAPE）的方法，旨在解决基于查询的多视图 3D 目标检测问题，实验结果表明，该方法在 NuScenes 数据集上的表现已达到目前最先进水平。

Mar, 2023

V-DETR: 使用顶点相对位置编码的 3D 对象检测

使用 DET 框架引入一种高性能的用于点云的 3D 物体检测器，通过引入一种新的 3D 顶点相对位置编码方法，使模型集中于对象附近的点，进一步改进了管道，在 ScanNetV2 基准测试上取得了显著的改进。

Aug, 2023

一种用于 3D 物体检测的端到端 Transformer 模型

3DETR 是一种基于 Transformer 的端到端目标检测模型，适用于 3D 点云，相较于现有的检测方法，它需要最少的修改，可以通过将 3D 领域知识整合进去得到进一步的改进，在 ScanNetV2 数据集上，相比于 VoteNet 基线具有 9.5% 更好的性能，并且适用于其他 3D 任务。

Sep, 2021

M3DeTR：基于 Transformer 的多表征、多尺度、互相关联的 3D 物体检测

提出了一种新颖的 3D 物体检测架构 M3DeTR，它将不同的点云表示方法（原始、体素、鸟瞰图）和不同的特征尺度结合在一起，并基于多尺度特征金字塔来模型点云之间的相互关系。通过大量的消融实验，突出了特征尺度和表示方式融合，以及模型点云之间的相互关系的好处。在 KITTI 3D 物体检测数据集和 Waymo 开放数据集中取得了最先进的性能表现，并在一些类别中排名第一。

Apr, 2021

空间 - 时间增强变压器：用于多帧三维目标检测

STEMD 是一种基于 DETR 的新型端到端框架，用于实现多帧 3D 物体检测，其有效地捕获了特征和相应级别的时空依赖性，并引入了空间 - 时间图注意力网络，以解决对象之间的空间交互作用和复杂的时间依赖性问题，控制冗余检测结果。

Jul, 2023

多视角 3D 物体检测的观察等变性

本研究介绍了一种基于多视角几何的 3D 物体检测方法 VEDet，通过视点感知和等变性，利用查询式转换器系统将三维场景转化为位置编码来提高目标定位精度，并在损失层面进行多视角一致性规范化，通过丰富的几何线索提高性能以优化现有方法。

Mar, 2023

基于 Transformer 的双目图像立体感知三维物体检测

本文提出 TS3D，一种基于 Transformer 的立体感知 3D 物体检测器，其中包括一种新颖的视差位置编码模型（DAPE）和 Stereo Reserving Feature Pyramid Network（SRFPN），使其在 KITTI 测试集上取得了 41.29％的平均精度。

Apr, 2023

通过 3D 到 2D 查询从多视角图像中进行 3D 物体检测

提出了一种基于多摄像头的 3D 对象检测框架，使用基于上下文注意力的网络，直接在 3D 空间中进行边界框的预测，实现了全球最佳性能。

Oct, 2021

Graph-DETR3D: 重新思考重叠区域的多视角三维物体检测

本文介绍了一种利用图结构学习的方法 --Graph-DETR3D-- 用于自动聚合多视角图像信息，以提高 3D 物体检测的性能。我们证明了在不同区域定位物体时，边缘区域的 “截断实例” 是影响 DETR3D 表现的主要瓶颈之一。通过采用我们提出的深度无关多尺度训练策略和动态 3D 图技术，相较于其他图像视角 3D 物体检测器的表现，Graph-DETR3D 获得了更好的表现。

Apr, 2022