OCID-Ref:带有机器人语言的三维杂乱场景数据集
从第一人称视角将文本表达与场景对象联系起来是开发具有环境意识并按照直观的文字指令行动的代理人的一项真正具有挑战性的能力。本文基于 Ego4D 的第一人称视频构建了广泛的基于视频的引用表达理解数据集:RefEgo,其中包括超过 12k 个视频剪辑和 41 小时的视频引用表达理解批注。通过将最先进的 2D 引用表达理解模型与对象跟踪算法相结合,我们实现了视频中对象的跟踪,即使在困难条件下:视频中的所指对象在视频中间变得超出视野或者视频中出现多个相似对象。
Aug, 2023
本文提出一种用于单视角 RGBD 图像的三维视觉定位的新方法,该方法采用从底层融合语言和视觉特征生成热图的方式来粗略定位相关区域,然后通过自适应特征学习和对象级匹配,并结合另一种视觉语言融合来最终定位被引用的对象。该方法在 ScanRefer 数据集和 SUNRefer 数据集上的实验证明,与现有方法相比,在两个数据集上均取得了较大的 [email protected] 提升(分别提升 11.2% 和 15.6%)。
Mar, 2021
这项研究关注于在人类中心环境中操作的机器人,通过整合视觉定位和抓握能力,根据用户指令高效操纵物体。首先创建了一个基于 OCID 数据集中杂乱室内场景的难题基准,其中生成指代表达式并与 4 自由度的抓握姿势相连接,然后提出了一种新颖的端到端模型(CROG),利用 CLIP 的视觉定位能力直接从图像 - 文本对中学习抓握综合。实验结果表明,CROG 在挑战性基准测试中显著改善了定位和抓握能力,经过模拟和硬件的广泛机器人实验证明了该方法在具有杂乱物体的挑战性交互抓握场景中的有效性。
Nov, 2023
本文提出了 EasyLabel 工具来方便地获取密集杂乱场景中像素级别的高质量实体标注。使用该工具生成的 Object Cluttered Indoor Dataset (OCID) 用于系统地比较现有的物体分割方法,并揭示了通过逐像素逐物体标注来提高机器人视觉现实应用的必要性。
Feb, 2019
我们介绍了一项新的任务,使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言,我们构建了一个大规模数据集 Mono3DRefer,其中包含具有对应的几何文本描述的 3D 目标,由 ChatGPT 生成并手动改进。为了促进此任务,我们提出了 Mono3DVG-TR,一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器,用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力,解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布:this https URL。
Dec, 2023
本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的 3D 视觉定位任务的方法,并且通过利用图像的外观特征、点云中的位置和几何特征以及连续输入帧中的动态特征,匹配语言中的语义特征。我们提出了两个新的数据集,STRefer 和 LifeRefer,这些数据集对于野外 3D 视觉定位的研究具有重要意义,并且有着提升自动驾驶和服务机器人发展的巨大潜力。广泛的比较和消融研究证明,我们的方法在两个提出的数据集上实现了最先进的性能。
Apr, 2023
我们介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务。我们提出了 Multi3DRefer,扩展了 ScanRefer 数据集和任务,并引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。此外,我们利用 CLIP 的 2D 特征和对比学习在线渲染对象提案,构建了更好的基准线,该基准线在 ScanRefer 基准测试上超越了最新技术。
Sep, 2023
通过预测地面平面并利用地面像素视差来进行障碍物发现,解决了反射地面导致的自主导航失败问题。提出了一种统一的外观几何特征表达方法,并设计了融合器来发现障碍物。在新的数据集上验证了该方法的优越性能。
Jan, 2024
提出了一种空间语言模型用于 3D 视觉定位问题,使用基于 Transformer 的架构将空间嵌入和 DistilBert 的语言嵌入结合起来进行目标对象预测,能够在 ReferIt3D 提出的数据集上表现出竞争性,可以被应用于机器人等领域的视觉任务中。
Jul, 2021