面向方向提升的体素网络用于三维物体识别

我们提出了一种基于实时 RGB 的管道来实现物体检测和六自由度姿态估计。我们的创新性三维方向估计基于域随机化训练的三维模型的模拟视图，采用了变体的降噪自编码器。我们称之为增强自编码器相较于现有方法具有多个优点：它不需要真实标注的训练数据，适用于各种测试传感器，固有的处理物体和视角对称性。我们提出了一种隐式表征物体方向的方法，定义了潜在空间内的样本，而不是学习从输入图像到对象姿态的显式映射。我们的管道在 T-LESS 数据集的 RGB 和 RGB-D 领域均取得了最新成果。我们还在 LineMOD 数据集上进行评估，其中我们可以与其他合成训练方法竞争。当物体偏离图像中心时，通过纠正三维方向估计来进一步提高性能，并展示了扩展结果。

Feb, 2019

ImageNet3D：面向通用对象级别 3D 理解

通过与 ImageNet 数据集相结合，ImageNet3D 数据集提供了 200 个类别的 2D 和 3D 信息，从而为构建具有更强的通用性目标级三维理解的视觉模型提供了潜力。

Jun, 2024

FusionNet: 使用多种数据表示进行的 3D 物体分类

利用体素表示法和像素表示法，使用卷积神经网络进行 3D 目标识别。使用新的 V-CNN 架构将两种表示法相结合，获得显著更好的分类器。

Jul, 2016

设计用于连续物体方向估计的深度卷积神经网络

本文研究使用深度卷积神经网络来解决连续物体方位估计任务，并通过比较三种连续方位估计方法的效果证明，将连续方位估计任务转化为离散方位估计任务并使用均值漂移算法将离散方位估计结果转化回连续方位，其中基于离散化的方法不仅性能更好，而且达到了最先进水平。同时，文章也说明了在适应图像识别任务的深度卷积神经网络中，寻找合适的特征表示是获得良好性能的关键。

Feb, 2017

野外三维物体分类检测

本文提出了一种 3D 物体识别方法，利用 2D-3D 物体提升技术，逐步将对象检测输出增加到对象视点，关键点和 3D 形状估计，并在 Pascal3D + 数据集上同时实现 2D 边界框和视点估计的最佳方法。

Mar, 2015

规范投票：朝向稳健的 3D 边界框检测

该论文提出了一种使用 Local Canonical Coordinates 和 canonical voting scheme 的 3D 目标检测方法，能够在三个标准实际数据集上取得最优性能

Nov, 2020