通用三维多物体搜索系统
通过利用部分可观察的马尔可夫决策过程来建模对象搜索,结合人类世界(例如,八叉树和相关性)和人机交互中的结构(例如,空间语言)进行建模,可以实现一种实用且高效的广义对象搜索系统。
Jan, 2023
提出了一种基于多视角视野的实时视觉系统,可以从单个 RGB-D 视角提出三维物体姿态建议,并且根据多个视角的姿态估计和非参数占用信息积累这些姿态估计,从而对接触的多个已知对象进行一致的、不相交的姿态估计。应用于实时机器人应用程序中,只使用机载 RGB-D 视觉,机械臂可以精确而有序地拆卸复杂的物体堆放,展示了其准确性和鲁棒性。
Apr, 2020
本论文探讨了如何利用通用 AI 算法进行 3D 场景理解来减少训练数据的需求,并提出了一种修改的蒙特卡洛树搜索算法,以从嘈杂的 RGB-D 扫描中检索对象和房间布局。在 ScanNet 数据集上应用本算法可以得到比一些手动注释更好的配置。
Mar, 2021
本文介绍了一种新的方法,通过感知系统提供场景中所有物体的几何和语义信息,同时提供这些物体的可行抓取,以加速机器人操作的复杂度。通过详细的定量分析,我们展示了我们的方法通过在 30 帧 / 秒速度下提供竞争性能,以比较专门用于物体形状、姿态和抓取预测的最新技术方法。
May, 2023
本文介绍了一种新颖的交互式多对象搜索任务,并提出了一种层次强化学习方法,学习探索、导航和操作技能,该方法在模拟和实际的实验中展示了零样本迁移和对不同机器人运动学的适应性。
Jul, 2023
本研究提出了一种针对物体在杂乱场景下特别是发生遮挡或物体相互叠加时,高效搜索每个物体的六维位姿假设的方法,通过聚类减小个体候选位姿数据量,在基于物体检测和全局点云注册的技术提供的候选物体位姿中,使用基于 Monte Carlo Tree Search 的全局优化过程,结合各个物体之间物理交互关系,探索候选位姿的组合,识别场景级别的最佳假设。实验结果表明,该过程能够快速发现在杂乱场景中与地面实际情况接近的、物理上一致的物体位姿。
Oct, 2017
我们研究了 3D 注册问题的一个变种,名为多模型 3D 注册。在多模型注册问题中,我们给出两个描绘了不同姿态下一组物体(可能包括属于背景的点)的点云,并且我们希望同时重建出这两个点云之间所有物体的运动。该方法通用于标准的 3D 注册,其中需要重建出单个姿态,例如传感器描绘静态场景的运动。此外,它为相关的机器人应用提供了数学上的基础,例如,机器人上的深度传感器感知动态场景,并且目标是在同时恢复出自身的运动(从静态部分场景中)以及所有动态物体的运动。我们假设一个基于对应关系的设置,在两个点云之间存在着匹配关系,同时考虑了这些对应关系受到异常值干扰的实际情况。然后,我们提出了一种基于期望最大化(Expectation-Maximization)的简单方法,并建立了 EM 方法收敛到真实结果的理论条件。我们在从桌面场景到自动驾驶场景的模拟和实际数据集上评估了该方法,并证明其与最先进的场景流方法相结合时的有效性。
Feb, 2024
本篇研究论文提出了一种基于学习的三维多目标跟踪方法,在公共数据集 nuScenes 上取得了近年来最好的性能表现,采用的关键技术包括神经消息传递网络、数据关联和轨迹稳定性的处理。
Apr, 2021
本文介绍了一种新的多目标跟踪方法 EagerMOT,它使用深度传感器和相机来融合对目标的观察,以实现对移动机器人周围物体在三维空间和时间上的定位,实验表明 EagerMOT 方法在 KITTI 和 NuScenes 数据集上达到了先进水平。
Apr, 2021
本研究提出一种基于图神经网络的算法,名为 Graph Inductive Moving Object Segmentation (GraphIMOS), 解决了电脑视觉中的运动对象分割问题。算法可以在新添加的数据帧上执行预测,并在真实世界应用中超越了以前的归纳学习方法和所有以前的传导技术。该算法使得以图为基础的 MOS 模型能够应用于真实世界中的应用。
May, 2023