机器人操作的通用语义几何表现
我们提出了一个新的框架,利用姿态化的 RGB-D 测量和 2D 语义标签作为输入,进行语义目标的主动重建,实现对感兴趣目标的自适应视角规划,从而在网格和新视角渲染质量方面实现更好的重建性能,超过不考虑语义的隐式重建基线和基于显式地图的最先进的语义目标主动重建流水线。
Mar, 2024
本文探讨机器人行动的基本局限性和现有的视觉表征学习方法存在的问题,并提出利用语义三维关键点作为视觉表征的方法,通过半监督训练,使其精度达到毫米级别,能够帮助定义强化学习的奖励函数并作为代理训练的有效表征。
Sep, 2020
本研究介绍了一种基于模块化方法的场景感知机器人视觉定位框架,该方法通过训练每个模块来独立解析实体、属性和空间关系,并结合领域自适应技术解决常见问题。实验表明,该框架与 Sim-To-Real 实现的视觉识别方法相结合,能够提供一种数据高效、稳健且易于理解的视觉定位机器人方案。
May, 2022
该论文提出了一种基于联合三维几何和语义理解的新方法来解决计算机视觉中困难的视觉定位问题,该方法使用生成模型进行描述符学习,并在语义场景补全作为辅助任务进行训练,以使得生成的三维描述符具有鲁棒性,并能够实现在极端视角,光照和几何变化下的可靠定位。
Dec, 2017
通过利用深度融合技术和深度学习的物体检测和语义分割算法,我们成功地解决了在复杂场景中感知目标物体的问题,并在 Amazon Picking Challenge2016 和紧急响应场景数据集上进行了验证。
Oct, 2018
通过名称为 SUGAR 的新型 3D 预训练框架,可以捕捉物体的语义、几何和功能属性,解决了处理复杂 3D 场景中的遮挡和准确定位对象的亚优缺陷;SUGAR 利用可变转换模型同时处理五个预训练任务,包括语义学习的跨模态知识蒸馏、理解几何结构的遮蔽点建模、对象功能的抓握姿势合成、3D 实例分割和杂乱场景中的指代表达接地;实验结果表明,SUGAR 的 3D 表示优于最先进的 2D 和 3D 表示。
Apr, 2024
本研究提出了一种简单的方法来构造一个可微分的世界表示,该表示将场景的语意和空间可负载特征编码成一个映射表,从而实现了同时优化场景语意和可负载特征的端到端可微规划。
Apr, 2023
本论文将最新的深度学习方法与基于视频流的半稠密 SLAM 相结合,在室内 / 室外数据集中得到了更好的 2D 语义标签识别,无需针对序列中的每一帧获得语义分割,其时间复杂度也得以合理控制。
Nov, 2016
基于图像的机器人操纵系统,利用多个视角捕捉目标物体,推断深度信息以补充其几何信息,采用几何一致性融合视角,实现精确操纵决策。
Oct, 2023
提出一个利用多模态传感器融合的方法,能够在一个已知环境中,通过理解该环境搭配环境地图,准确地检测和定位预设物体和障碍物,并相比于单一的传感器能够更准确地检测远处和近处的障碍物。
Jul, 2023