机器人操作的通用语义几何表现

Jun, 2023

A Universal Semantic-Geometric Representation for Robotic Manipulation

PDF

Tong Zhang, Yingdong Hu, Hanchen Cui, Hang Zhao, Yang Gao

TL;DR本文提出一种名为语义几何表征（SGR）的感知模块，旨在整合 RGB 和深度相机的信息，以更好地学习机器人感知和控制的表征，实验结果表明，SGR 在单任务和多任务设置下的表现均显著优于其他方法，并具有到新语义属性的泛化能力。

Abstract

robots rely heavily on sensors, especially RGB and depth cameras, to perceive and interact with the world. →

robots sensors rgb cameras depth cameras semantic-geometric representation

发现论文，激发创造

STAIR：语义目标驱动的主动隐式重建

我们提出了一个新的框架，利用姿态化的 RGB-D 测量和 2D 语义标签作为输入，进行语义目标的主动重建，实现对感兴趣目标的自适应视角规划，从而在网格和新视角渲染质量方面实现更好的重建性能，超过不考虑语义的隐式重建基线和基于显式地图的最先进的语义目标主动重建流水线。

Mar, 2024

S3K: 自监督语义关键点多视角一致性用于机器人操作

本文探讨机器人行动的基本局限性和现有的视觉表征学习方法存在的问题，并提出利用语义三维关键点作为视觉表征的方法，通过半监督训练，使其精度达到毫米级别，能够帮助定义强化学习的奖励函数并作为代理训练的有效表征。

Sep, 2020

基于辅助人工智能消除歧义的视觉定位实现虚实转移

本研究介绍了一种基于模块化方法的场景感知机器人视觉定位框架，该方法通过训练每个模块来独立解析实体、属性和空间关系，并结合领域自适应技术解决常见问题。实验表明，该框架与 Sim-To-Real 实现的视觉识别方法相结合，能够提供一种数据高效、稳健且易于理解的视觉定位机器人方案。

May, 2022

语义视觉定位

该论文提出了一种基于联合三维几何和语义理解的新方法来解决计算机视觉中困难的视觉定位问题，该方法使用生成模型进行描述符学习，并在语义场景补全作为辅助任务进行训练，以使得生成的三维描述符具有鲁棒性，并能够实现在极端视角，光照和几何变化下的可靠定位。

Dec, 2017

RGB-D 目标检测与语义分割用于杂乱环境中的自主操作

通过利用深度融合技术和深度学习的物体检测和语义分割算法，我们成功地解决了在复杂场景中感知目标物体的问题，并在 Amazon Picking Challenge2016 和紧急响应场景数据集上进行了验证。

Oct, 2018

SUGAR: 为机器人预训练 3D 视觉表征

通过名称为 SUGAR 的新型 3D 预训练框架，可以捕捉物体的语义、几何和功能属性，解决了处理复杂 3D 场景中的遮挡和准确定位对象的亚优缺陷；SUGAR 利用可变转换模型同时处理五个预训练任务，包括语义学习的跨模态知识蒸馏、理解几何结构的遮蔽点建模、对象功能的抓握姿势合成、3D 实例分割和杂乱场景中的指代表达接地；实验结果表明，SUGAR 的 3D 表示优于最先进的 2D 和 3D 表示。

Apr, 2024

USA-Net: 机器人记忆的统一语义和可负担表示

本研究提出了一种简单的方法来构造一个可微分的世界表示，该表示将场景的语意和空间可负载特征编码成一个映射表，从而实现了同时优化场景语意和可负载特征的端到端可微规划。

Apr, 2023

单目 SLAM 的半稠密三维语义映射

本论文将最新的深度学习方法与基于视频流的半稠密 SLAM 相结合，在室内 / 室外数据集中得到了更好的 2D 语义标签识别，无需针对序列中的每一帧获得语义分割，其时间复杂度也得以合理控制。

Nov, 2016

ImageManip: 图像基于机器人操作的可支配性导向下一视角选择

基于图像的机器人操纵系统，利用多个视角捕捉目标物体，推断深度信息以补充其几何信息，采用几何一致性融合视角，实现精确操纵决策。

Oct, 2023

文物映射：多模态语义映射用于物体检测和 3D 定位

提出一个利用多模态传感器融合的方法，能够在一个已知环境中，通过理解该环境搭配环境地图，准确地检测和定位预设物体和障碍物，并相比于单一的传感器能够更准确地检测远处和近处的障碍物。

Jul, 2023