USA-Net: 机器人记忆的统一语义和可负担表示

Apr, 2023

USA-Net: 机器人记忆的统一语义和可负担表示

USA-Net: Unified Semantic and Affordance Representations for Robot Memory

Benjamin Bolte, Austin Wang, Jimmy Yang, Mustafa Mukadam, Mrinal Kalakrishnan...

TL;DR本研究提出了一种简单的方法来构造一个可微分的世界表示，该表示将场景的语意和空间可负载特征编码成一个映射表，从而实现了同时优化场景语意和可负载特征的端到端可微规划。

Abstract

In order for robots to follow open-ended instructions like "go open the brown cabinet over the sink", they require an understanding of both the scene geometry and the semantics of their environment. Robotic systems often handle these through separate pipelines, sometimes using very dif

robotics world representation differentiable map planner semantics

发现论文，激发创造

机器人操作的通用语义几何表现

本文提出一种名为语义几何表征（SGR）的感知模块，旨在整合 RGB 和深度相机的信息，以更好地学习机器人感知和控制的表征，实验结果表明，SGR 在单任务和多任务设置下的表现均显著优于其他方法，并具有到新语义属性的泛化能力。

Jun, 2023

基于技能的视觉物体导航的交互式语义地图表示

使用学习方法的视觉对象导航是移动机器人的关键任务之一，本文介绍了一种在与室内环境进行混合体互动过程中形成的场景语义地图的新表示方法，该方法基于神经网络通过反向或正向图像序列上的预测融合损失值的反向传播来调整分割模型的权重。我们将此表示方法实现到一种名为 SkillTron 的完整导航方法中，该方法可以根据强化学习和基于地图的经典规划方法从端到端策略中选择机器人技能。所提出的方法能够为机器人探索制定中间目标和对象导航制定最终目标，我们在 Habitat 环境中对所提出的方法进行了大量实验，在导航质量指标方面表现出明显的优势，与现有技术方法相比。所开发的代码和使用的自定义数据集可以在 github.com/AIRI-Institute/skill-fusion 上公开获取。

Nov, 2023

Robo-ABC: 通过语义对应实现机器人操作中的类别以外物体能力泛化

通过从人类视频中提取联系点、并借鉴人类思维方式，我们提出了 Robo-ABC 框架，在不需要任何手动注释、附加训练、部分分割、预编码知识或视角限制的情况下，使机器人能够通过检索视觉或语义上相似的对象来获得关于操作性的信息，并将其映射到新对象上，从而实现对类别之外的对象的零样本操作。在视觉操作性检索上，Robo-ABC 达到了相对于最先进的端到端操作模型的 31.6% 的显著提高，并通过现实世界的物体抓取任务实验，取得了 85.7% 的成功率，证明了其在真实世界任务中的能力。

Jan, 2024

末端到端的视觉运动控制的可供性学习

采用模块化神经网络体系结构，利用合成数据和模拟技术，通过低维潜在表示生成场景可用性，成功训练机械臂政策。同时，提出了一种数据集生成方法，可轻松推广到新任务、对象和环境，无需手动像素标记。

Mar, 2019

使用语义地图监督学习导航视觉表征

我们提出了一种新颖的导航特定的视觉表示学习方法，通过对比代理的自我中心视图和语义地图（Ego$^2$-Map），将地图中的紧凑且丰富的信息转移到代理的自我中心表示中，从而实现室内导航。我们的实验结果表明，采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法，并且我们的表示显著改善了连续环境下的视觉和语言导航，在高级和低级行动空间上均取得了 47％的 SR 和 41％的 SPL 的最新最佳结果。

Jul, 2023

面向语义目标驱动导航的视觉表征

本研究主要探讨了如何在复杂环境下使用语义视觉导航技术，通过使用实时现成的高级语义和语境特征来训练深度神经网络的方式进行导航决策，并通过将现实和虚拟数据的特征表示结合起来提高模型的学习效果达到更高的导航性能。

May, 2018

使用 Affordance Map 学习移动

本文提出了一种基于自监督学习的模块化方法，该方法将传统的几何规划与学习空间场景表示相结合，以实现对动态对象和语义约束进行自主探索和导航。在基于 VizDoom 的仿真环境中得到了验证。

Jan, 2020

面向对象语义地图的有意义地图绘制

本文讨论了智能机器人如何同时理解环境的几何和语义属性，以构建包含物体级别实体和基于点或网格的几何表示的环境地图。作者的系统结合 RGB-D SLAM、深度学习目标检测和 3D 非监督分割等技术，同时构建几何点云模型和包含这些物体模型的地图。

Sep, 2016

在室内环境中进行高层语义区域划分而无需物体识别

通过室内环境中的具身导航，提出了一种语义区域绘图的方法，通过视觉 - 语言模型向导绘图，将自身场景理解映射到全局框架上，生成具有高级代理知识的语义地图，实现自主地图生成。在逼真模拟器的实验中，该方法在大量基线方法中明显优于基于对象的系统和预训练场景分类器。

Mar, 2024

ConceptGraphs: 开放词汇三维场景图用于感知和规划

为了使机器人能够执行各种任务，本研究提出了一种名为 ConceptGraphs 的基于图结构的 3D 场景表示方法，通过将 2D 基本模型的输出与多视图关联相结合，不需要收集大型 3D 数据集或微调模型即可实现对新的语义类进行泛化推理，并通过一些需要对空间和语义概念进行复杂推理的后续规划任务来证明这种表示方法的实用性。

Sep, 2023