关系增强变换器在文本到点云定位中的应用
提出了一种新的模型来解决现有方法的两个主要限制:依赖于地面实例作为输入以及忽视可能实例之间的相对位置,通过文本到点云的跨模态本地化任务,能够在一个城市规模的点云场景中根据少量自然语言指令来定位一个位置。实验结果表明,该模型在 KITTI360Pose 数据集上与最先进的模型相比具有竞争力的性能,同时也不需要使用地面实例作为输入。
Apr, 2024
我们提出了一种新型的神经网络 Text2Loc,通过几个自然语言描述实现了基于 3D 点云定位,并完全解释了点与文本之间的语义关系,实现了粗 - 细定位的本地化过程,文本子图全局位置识别中,用分层 Transformer 和最大池化捕获了每个文本提示之间的关系动态,而使用文本子图对比学习保持了正负样本之间的平衡;此外,我们还提出了一种新颖的无匹配精细定位方法,进一步提升了位置预测的准确性,摆脱了复杂的文本实例匹配需求,并且比之前的方法更轻量化、更快速、更准确。大量实验证明,Text2Loc 在 KITTI360Pose 数据集上超过了当前最先进技术,定位准确度提升了 2 倍。我们将公开提供代码。
Nov, 2023
本文介绍了 Point Tracking Transformer (PTTR) 模型,该模型通过关系感知采样,点关系变换器和预测细化模块实现了点云单物体跟踪,并且在 Waymo 开放数据集上取得了卓越的准确性和效率。
Dec, 2021
该论文提出了一种新的端到端方法来直接预测配准操作中的对应点,利用 transformer 网络结构中的自注意力和交叉注意力机制来替代传统的特征匹配和 RANSAC 算法,该方法在 3DMatch 和 ModelNet 基准上均取得了最先进的成绩。
Mar, 2022
本文提出了一种名为 CLTR 的 Crowd Localization Transformer,采用回归范式解决权限更高的预测头部位置任务,并使用基于 KMO 的匈牙利匹配器来减少模糊点和生成更合理的匹配结果,实验结果表明本方法在多个数据集上效果较好,特别是在 NWPU-Crowd 数据集上表现最佳。
Feb, 2022
本文提出了一种新颖的点云表示学习架构,称为 Dual Transformer Network (DTNet),该架构主要包括一个 Dual Point Cloud Transformer (DPCT) 模块,该模块通过同时聚合点和通道的多头注意力机制,从位置和通道的语义角度捕获更丰富的上下文依赖性,有效地实现了三维点云分类和分割任务中的终端到终端分析。
Apr, 2021
本文提出和研究了一种新的实例级检索任务:点云 - 文本匹配 (PTM),该任务旨在找到与给定的点云查询或文本查询匹配的确切跨模态实例。我们构建了三个新的 PTM 基准数据集,分别是 3D2T-SR、3D2T-NR 和 3D2T-QA。为了解决这些挑战,我们提出了一种名为 RoMa 的 PTM 基准线方法,它由两个模块组成:双重注意感知模块(DAP)和鲁棒负对比学习模块(RNCL)。我们在我们的基准测试上进行了广泛的实验,并展示了 RoMa 的优越性。
Mar, 2024
本文提出了一种新型的 Text4Point 框架,通过利用 2D 图像作为连接点云和语言模态的桥梁,建立图像和点云的对应关系,从而通过对比学习将其对齐;并进一步引入文本查询模块,查询点云特征的文本嵌入,将语言信息整合到 3D 表示学习中,提高各种下游任务的性能。
Jan, 2023
本文提出了基于自我定位的点云 Transformer(SPoTr),通过局部自我关注和基于点的全局交叉关注,使用自我定位点考虑空间和语义信息,从而捕捉局部和全局形状上下文,提高表现力,并通过小型自我定位点集计算注意力权重,从而提高了全局注意力的可扩展性。实验表明 SPoTr 在精确度和可解释性等方面的表现都很好。
Mar, 2023