VoxDet: 针对新样本实例检测的体素学习

May, 2023

VoxDet: 针对新样本实例检测的体素学习

VoxDet: Voxel Learning for Novel Instance Detection

Bowen Li, Jiashun Wang, Yaoyu Hu, Chen Wang, Sebastian Scherer

TL;DR使用 VoxDet 这个基于 3D 几何感知的框架，通过模板体素聚合模块和查询体素匹配模块，将多视角 2D 图像转化为 3D 体素，从而实现对姿势变化和遮挡的有效识别，取得了 20% 较高的召回率和较快的速度。

Abstract

Detecting unseen instances based on multi-view templates is a challenging problem due to its open-world nature. Traditional methodologies, which primarily rely on 2D representations and matching techniques, are o

unseen instances multi-view templates 3d representations occlusions pose variations

发现论文，激发创造

基于体素的单图像多物体三维检测和重建

该研究提出了一种基于 3D 体素特征的中心点检测方法，其中包括一个有效的粗细重建模块，可从单个 2D 图像中检测和重建多个物体的 3D 位置和形状。

Nov, 2021

OCM3D：基于物体的单目三维物体检测

本文提出了一种适用于单目三维目标检测的新型基于物体的体素表示法，能够有效地组织噪点云在体素网格内，并能够精确定位对象在三维空间中的位置。通过考虑三维物体与相关二维框之间的关系，我们将单目三维目标检测中的置信度机制进行了分解，并在 KITTI 数据集上进行了评估，性能显著优于现有技术。

Apr, 2021

VR3Dense: 用于三维物体检测和单目密集深度重建的体素表示学习

介绍了一种联合训练 3D 目标检测和单目稠密深度重建神经网络的方法，通过 LiDAR 点云和单个 RGB 图像生成物体姿态预测和密集重建深度，其中 LiDAR 点云被转换为一组体素并使用 3D 卷积层提取特征，通过另一个 2D 卷积神经网络提取相应的 RGB 图像特征，并使用这些组合特征来预测密集深度图。

Apr, 2021

用于 3D 物体检测的 Voxel Transformer

本文介绍了 Voxel Transformer (VoTr)，这是一种用于 3D 目标检测的新型有效的基于体素的 Transformer 骨干网络。我们通过引入基于 Transformer 的体系结构来解决仅使用体素的 3D 卷积骨干不能有效地捕获大的上下文信息的问题，并且我们提出的 VoTr 在 KITTI 议会和 Waymo 开放数据集上展现了良好的性能。

Sep, 2021

用于 3D 目标检测的密集体素融合

提出了基于 Dense Voxel Fusion 的序列融合方法，该方法对于自主车辆应用中的 3D 物体检测具有重要意义。通过直接使用地面真实 3D 边界框标签进行训练，避免使用嘈杂的、特定于检测器的 2D 预测。DVF 在 KITTI 3D 汽车检测基准测试中排名第三，且不引入额外的可训练参数，也不需要使用立体图像或密集深度标签。此外，在 Waymo 开放数据集上，DVF 显著提高了基于体素的方法在 3D 车辆检测方面的性能。

Mar, 2022

PVT-SSD：使用点 - 体素变换的单级三维物体探测器

本论文提供了一种新型的点块 Transformer 用于单级三维检测 (PVT-SSD), 其使用基于体素的稀疏卷积进行有效的特征编码，并从体素中以便宜的方式获取长距离上下文，同时从点中获取准确的位置并通过引入依赖于输入的查询初始化模块关联这两种不同的表示。进一步地，通过设计 Virtual Range Image 模块，该方法能够快速找到参考点的邻近点。该方法在几个自动驾驶基准测试中得到了验证，表明其有效性和高效性。

May, 2023

基于图像级别分类和去偏置交叉模态对比学习的开放词汇三维检测

OV-3DETIC 是一个开放式词汇的 3D 点云检测器，使用基于图像的分类监督，并利用伪标签和实现跨模态对比学习方法从 ImageNet1K 扩展了其单词表，从而使点云检测器具有实现开放式词汇检测的能力，并实现了至少 10.77% 的 mAP 绝对值改进。

Jul, 2022

CoDA: 协作式创新箱发现与开放式词汇 3D 物体检测的交叉模态对齐

通过统一的框架，在有限的基础类别的条件下，本论文旨在同时解决定位和分类新颖目标的两个问题，提出了一种有效的 3D 新目标发现策略以及基于发现的新目标的跨模态对齐模块，通过迭代增强的对齐来统一实现了开放词汇 3D 目标检测的既定框架。

Oct, 2023

VoxelNet：基于点云的三维物体检测的端到端学习

VoxelNet 是一种针对点云图像检测的深度网络，可以将点云分割成等间距的三维体素，并通过新引入的体素特征编码层将每组点转换为统一的特征表示，从而生成描述性的体积表示，并连接 RPN 以生成检测。

Nov, 2017

合作式新颖物体发现与基于盒子引导的跨模态对齐在开放词汇 3D 物体检测中的应用

CoDAv2 是一个统一的框架，用于创新性地解决有限基本类别条件下的新型 3D 物体的定位和分类问题，其中使用 3D 几何和 2D 开放词汇语义先验来发现训练期间新型物体的伪标签以及通过 3D 点云和 2D / 文本模态之间的特征对齐来提升分类准确性。

Jun, 2024