在未知的动态环境中使用三维语义地图进行开放词汇的移动操作
HomeRobot 是一种经济实惠的柔性机器人,可在家中导航和操作各种物品以完成日常任务,Open-Vocabulary Mobile Manipulation 是其面临的挑战,该文介绍了一个基于模拟的基准测试,使用强化学习和启发式模型等基线,并探讨了改进性能的方法。
Jun, 2023
我们在 NeurIPS 2023 的 HomeRobot:开放词汇移动操作(OVMM)挑战中改进了强化学习基准模型,包括更准确的语义分割模块,以及更好的放置技能策略和高级启发式方法,在测试数据集的标准分割上,整体成功率提高了 2.4%(七倍的改进)和部分成功率提高了 8.2%(1.75 倍的改进)。在模拟和真实场景的挑战中,我们的代理获得了第三名的成绩。
Jan, 2024
O2V-mapping utilizes voxel-based language and geometric features to achieve online construction of open-vocabulary language scenes, overcoming challenges such as lack of local scene updating ability, blurry spatial hierarchical semantic segmentation, and difficulty in maintaining multi-view consistency.
Apr, 2024
利用开放词汇泛化的方法,本文提出了 MOKA(标记开放词汇关键点可利用性)来使用视觉语言模型解决由自由形式语言描述的机器人操作任务,通过在图像上注记关键点和航点的预测,将问题转化为视觉问答问题,并通过上下文学习和策略精炼提升性能,验证并分析了 MOKA 在以自由形式语言描述的各种操纵任务中的表现,如工具使用、可塑性物体操作和物体重新排列。
Mar, 2024
通过将视觉 - 语言模型(VLMs)与导航原语和抓取原语相结合,OK-Robot 提供了一个集成的解决方案,用于无需任何训练的拾取和放置操作,其在 10 个真实家居环境中取得了 58.5% 的成功率,在清洁、无杂乱环境中提高到 82%,这代表了开放词汇移动操纵中新的最先进技术。
Jan, 2024
我们提出了潜在的组合语义嵌入 z * 作为查询空间语义记忆的基于学习的知识表示,并且证明了 z * 可以通过梯度下降的迭代优化被发现。我们通过实验证明了 z * 能够表示由 SBERT 编码的多达 10 个语义和理想均匀分布的高维嵌入的多达 100 个语义,同时展示了在 COCO-Stuff 数据集上针对 181 个重叠语义,经过密集 VLM 训练的 z * 具有 42.23 的 mIoU,相比于流行的 SOTA 模型改进了 3.48 的 mIoU 的传统非重叠开放词汇分割性能。
Oct, 2023
本文介绍了一种基于视觉语言模型的语义抽象框架,可以为机器人在未结构化的三维环境中推理,并学会三维空间和几何推理技能,并在两个开放式三维场景理解任务上进行了实验测试。
Jul, 2022
人类善于形成心理地图以理解物体关系和通过语言查询导航;此论文通过提出基于 3D 的实例级方法提高语言引导任务的成功率,并在定量和定性结果上获得显著改善。
Apr, 2024
通过结合语言模型 (vision-language models)、分割模型和抓取综合模型,提出了一个能够在任何场景中理解、规划和执行物体抓取的开放世界抓取系统 (OWG),通过视觉提示机制,借助于开放式自由语言的引导实现零样本应用,展示了该系统在杂乱室内场景数据集和仿真环境、硬件实验中相对于以往的有监督和零样本语言模型方法具有优越性能。
Jun, 2024