DOrA:具有顺序感的三维视觉连接
提出了 DASANet,一种用于模型属性和空间关系特征的双重对齐网络,能够实现在语言和 3D 视觉模态之间建立联系,提高基于 3D 视觉的定位准确性。
Jun, 2024
设计一种可解释的 3D 视觉定位框架,通过预测一系列锚点和最终目标,将 3D 视觉定位问题形式化为序列到序列任务,将指称任务分解为可解释的中间步骤,从而提高性能并极大地提高数据效率。
Oct, 2023
提出了一种空间语言模型用于 3D 视觉定位问题,使用基于 Transformer 的架构将空间嵌入和 DistilBert 的语言嵌入结合起来进行目标对象预测,能够在 ReferIt3D 提出的数据集上表现出竞争性,可以被应用于机器人等领域的视觉任务中。
Jul, 2021
本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的 3D 视觉定位任务的方法,并且通过利用图像的外观特征、点云中的位置和几何特征以及连续输入帧中的动态特征,匹配语言中的语义特征。我们提出了两个新的数据集,STRefer 和 LifeRefer,这些数据集对于野外 3D 视觉定位的研究具有重要意义,并且有着提升自动驾驶和服务机器人发展的巨大潜力。广泛的比较和消融研究证明,我们的方法在两个提出的数据集上实现了最先进的性能。
Apr, 2023
本研究提出 EDA 方法,通过文本解耦和密集对齐技术实现了 3D 点云中丰富语义描述的物体检索,并在已有数据集上实现了最优结果,并在新提出的任务上取得了绝对领先。
Sep, 2022
本文提出了一种基于 Transformer 的 TransRefer3D 网络,利用实体和关系感知的多模态上下文提取模块,通过协同注意力操作进行跨模态匹配,构建了逐层的多模态上下文模型,从而在细粒度 3D 视觉定位任务中实现了学习出更具区分度的特征,并在实验中取得领先的性能。
Aug, 2021
基于大规模视觉 - 语言模型的弱监督学习方法,利用 2D 图像和 3D 点云之间天然存在的对应关系,无需精细标注的边界框注释,通过学习文本 - 3D 对应,实现文本查询与 3D 目标物的关联。实验结果在 ReferIt3D 和 ScanRefer 数据集上表明,3D-VLA 方法实现了与完全监督方法相当甚至更出色的效果。
Dec, 2023
本文提出了一种名为 InstanceRefer 的模型,该模型利用语言描述实现目标类别预测,从 3D 点云的广义实例分割中筛选出少量实例候选项,利用多级语境推理和多层次特征匹配来实现最相关候选项的选择和定位,从而实现了优越的 3D 视觉定位结果
Mar, 2021
利用培训有源代码的现成模型来捕捉特征,如视角选择或几何先验,改善性能是现有关于三维物体目标级语言基础的工作的主要关注点之一。然而,它们没有考虑到在跨领域中探索语言 - 视觉对齐的跨模态表示。为了解决这个问题,我们提出了一种名为三维对象领域适应的语言基础(DA4LG)的新方法。具体而言,DA4LG 由具有多任务学习的视觉适配器模块组成,通过全面的多模态特征表示实现视觉 - 语言对齐。实验结果表明,DA4LG 在视觉和非视觉语言描述方面具有竞争力的性能,不受观测完整性的影响。DA4LG 在单视图设置和多视图设置中均在语言基础基准 SNARE 中达到了 83.8%和 86.8%的准确率,达到了最先进的性能。仿真实验显示 DA4LG 相比现有方法具有良好的实用和泛化性能。
Jul, 2024
本研究提出了一种名为 3DRP-Net 的关系感知单阶段框架,能够有效捕捉物体之间的相对空间关系,并增强物体属性。通过分析对象对之间的相对关系和减少冗余点引起的空间模糊性,我们的方法在三个基准测试中均优于所有现有的方法。
Jul, 2023