DPPD:可变形极坐标多边形目标检测
本文介绍一种可微分的确定性点过程 (DPP) 层,能够优化目标检测体系结构以生成多样化且丰富的提案,同时考虑提案之间的空间布局关系和标签级别的语义关系,从而在不增加网络参数数量的情况下,显著改善对象检测的位置和类别检测的性能,比 Faster R-CNN 更加优越。
Apr, 2017
我们提出了一种名为 DOPS 的快速单级 3D 物体检测方法,其核心创新点是一种快速、单次遍历的体系结构,同时检测 3D 物体并估计其形状。该方法通过图卷积进行聚合,并将 3D 边界框参数传入网络分支以预测表示每个检测到的物体形状的潜变量代码,因此我们的模型能够在没有目标数据集的地面真实形态信息的情况下提取物体形状。与现有技术相比,在 ScanNet 场景的目标检测中,我们的方法实现了约 5% 的技术进步,在 Waymo 开放数据集中实现了高达 3.4% 的技术进步,同时重现了检测到的汽车的形状。
Apr, 2020
本文提出了一种半自动化的物体实例注释方法,通过多边形预测任务将对象分割,使人类标注者能够随时进行干预和纠正,从而实现更快速、更准确的注释过程。
Apr, 2017
通过使用 Sparse R-CNN 中的级联解码流程进行多边形预测,我们提出了一种创新的方法来解决基于 Transformer 的文本检测技术中的挑战,既能提高精度,又能减少内存占用和推理速度。
Sep, 2023
提出了一种在点云中基于消息传递和动态图形的 3D 物体检测架构,通过一种针对 3D 检测任务的集合到集合的蒸馏方法来简化知识蒸馏,实现了自动驾驶基准测试的最先进性能。
Oct, 2021
本文介绍了一种能够从 RGB 图像中检测三维物体和估计六自由度姿态的新型深度学习方法,称为 DPOD。该方法估计输入图像和可用的三维模型之间的密集多类二维三维对应关系图,通过 PnP 和 RANSAC 计算六自由度姿态,并使用基于深度学习的自定义方案对初始姿态估计进行了 RGB 姿态优化。与其他主要使用真实数据进行训练且不对合成渲染进行训练的方法不同,我们对合成数据和真实训练数据进行评估,显示出在所有最近的检测器中,此方法无论先前和后面都能够获得优异的结果。虽然具有精度,但本方法仍然具有实时性能。
Feb, 2019
本研究提出了一种基于极坐标的无锚盒实例分割框架,将实例分割问题重构为在极坐标下预测物体轮廓,具有统一的实例分割和物体检测框架、计算复杂度低的优点,可以轻松嵌入已有的检测方法中。另外还使用了细化的特征金字塔模型对算法进行改进,实验表明这种方法在处理实例分割问题方面表现具有竞争力。
May, 2021
最近,极坐标表示在感知任务中表现出了有希望的特性。除了分开不均匀地表示点云的笛卡尔方法外,将点云表示为极坐标网格被认为是一个替代方法,因为它在不同分辨率下表现稳健,且对基于流的方法具有优越性。然而,最先进的极坐标检测方法不可避免地遭受特征失真问题,因为极坐标表示被非均匀地划分,导致与笛卡尔方法相比存在不可忽略的性能差距。为了解决这个问题,我们提出了一种新的极坐标三维物体检测器 PARTNER。PARTNER 通过全局表示重新对齐缓解特征失真困境,并通过将实例级几何信息引入检测头来促进回归。大量实验证明,在基于流的检测和不同分辨率方面具有压倒性优势。此外,我们的方法在 Waymo 和 ONCE 验证集上相对于先前的极坐标方法取得了显著优势,分别达到了 3.68% 和 9.15%的竞争性结果。
Aug, 2023
本文提出了一种基于密集对应的三阶段六自由度物体检测方法,称为 DPODv2(密集姿势物体检测器),结合了 2D 物体检测与密集对应估计网络以及多视图姿态细化方法来估计完整的 6 自由度姿态,其使用了不同成像模式(RGB 或 Depth)作为输入。实验结果表明,RGB 成像在对应估计方面表现优异,而如果存在良好的 3D-3D 对应,则深度成像可提高姿势精度。
Jul, 2022