Text2Pos: 文本和点云跨模态定位
我们提出了一种新型的神经网络 Text2Loc,通过几个自然语言描述实现了基于 3D 点云定位,并完全解释了点与文本之间的语义关系,实现了粗 - 细定位的本地化过程,文本子图全局位置识别中,用分层 Transformer 和最大池化捕获了每个文本提示之间的关系动态,而使用文本子图对比学习保持了正负样本之间的平衡;此外,我们还提出了一种新颖的无匹配精细定位方法,进一步提升了位置预测的准确性,摆脱了复杂的文本实例匹配需求,并且比之前的方法更轻量化、更快速、更准确。大量实验证明,Text2Loc 在 KITTI360Pose 数据集上超过了当前最先进技术,定位准确度提升了 2 倍。我们将公开提供代码。
Nov, 2023
提出了一种新的模型来解决现有方法的两个主要限制:依赖于地面实例作为输入以及忽视可能实例之间的相对位置,通过文本到点云的跨模态本地化任务,能够在一个城市规模的点云场景中根据少量自然语言指令来定位一个位置。实验结果表明,该模型在 KITTI360Pose 数据集上与最先进的模型相比具有竞争力的性能,同时也不需要使用地面实例作为输入。
Apr, 2024
本文提出了一种统一的关系增强 Transformer (RET) 方法,通过使用新颖的关系增强自我关注机制和精细的跨模态匹配方法,成功地解决了文本到点云的交叉模态本地化问题,并在 KITTI360Pose 数据集上实现了比以前最先进方法更优异的实验结果。
Jan, 2023
本文提出和研究了一种新的实例级检索任务:点云 - 文本匹配 (PTM),该任务旨在找到与给定的点云查询或文本查询匹配的确切跨模态实例。我们构建了三个新的 PTM 基准数据集,分别是 3D2T-SR、3D2T-NR 和 3D2T-QA。为了解决这些挑战,我们提出了一种名为 RoMa 的 PTM 基准线方法,它由两个模块组成:双重注意感知模块(DAP)和鲁棒负对比学习模块(RNCL)。我们在我们的基准测试上进行了广泛的实验,并展示了 RoMa 的优越性。
Mar, 2024
该论文提出了一种解决全局定位问题的方法,通过使用基于 Siamese LocNets 的半手工表示学习方法,在全局先验地图中实现了场所识别和尺度姿态估计,并且提出了一个使用仅距离观测的全局定位框架。通过 KITTI 数据集和自主收集的多个数据集的实验结果表明,该系统能够实现高精度的全局定位。
Dec, 2017
本文提出了一种新型的 Text4Point 框架,通过利用 2D 图像作为连接点云和语言模态的桥梁,建立图像和点云的对应关系,从而通过对比学习将其对齐;并进一步引入文本查询模块,查询点云特征的文本嵌入,将语言信息整合到 3D 表示学习中,提高各种下游任务的性能。
Jan, 2023
无人机通过自然语言命令导航仍然是一个重要的挑战,该研究通过 GeoText-1652 数据集和空间关系匹配的优化目标,展示了利用自然语言命令提升无人机控制和导航的潜力。
Nov, 2023
通过使用 3D 点云来进行语言引导的操纵任务,我们提出了一种名为 PolarNet 的策略,该策略通过精心设计的点云输入、高效的点云编码器和多模态变换器来学习 3D 点云表示并将其与语言指令集成以进行行动预测。在 RLBench 基准测试中,PolarNet 在各种实验中显示出了高效和数据高效性,并在单任务和多任务学习中优于最先进的 2D 和 3D 方法。它在实际机器人上也取得了令人期待的结果。
Sep, 2023
本研究提出了一种三步走的文本姿势转移方法,解决了现有姿势转移算法的缺陷,并在 DeepFashion 数据集上新增了姿势注释,通过实验得出了显著的定量和定性分数。
Jul, 2022