多物体图谱能力网络:通过复合物体能力实现目标导向规划
本文介绍了一种针对开放式交互集的类不可知对象的功能类别识别方法,该方法通过无监督学习认知对象互动之间的相似性,从而诱导对象功能群簇,为构建活动图提出了一种新的深度感知定性空间表示方法,通过这种方法可以获得相似功能的物体组。实验证明,该方法即使在杂乱无章的场景中也能学习到高度 V-measure 的对象功能群簇,并且能够有效地处理对象遮挡,并且不强制施加任何对象或场景约束。
Mar, 2023
通过结合物体层面的可行先验和环境约束,我们提出了一个环境感知的可行性框架,该框架能够在考虑环境约束的情况下学习可行性,对于包含单个遮挡物和复杂遮挡物组合的场景具有良好的泛化效果。
Sep, 2023
提出一种从人类遥操作的游戏数据中提取自我监督的视觉管用模型,并将其与基于模型的策略学习和基于模型的强化学习相结合,以实现有效的策略学习和运动规划,从而实现在人类环境中运作的机器人的高效操作。
Mar, 2022
本研究使用视觉契合技术,通过预测关键点的接触信息,提出了一种端到端的控制策略学习框架,可以实现在不同类型的操纵任务中的泛化。结果显示,我们的算法在成功率上大大优于基线算法,包括基于视觉契合和强化学习方法。
Sep, 2022
通过感知体验,探索世界并从中自主学习,以高准确性学习行动对象和效果之间的关系描述(affordances)是机器人的关键问题之一。本文采用高斯混合模型(GMM)对传感器进行概率表示,并明确考虑了每个离散行动概念中所包含的概率分布,以提高学习准确性。
Feb, 2024
我们提出了一个模型,将对象、动作和效果统一为单一的潜在表示,在共享的感知空间中建立了被称为行动潜力空间的各种行为潜能。使用这个行动潜力空间,我们的系统能够在给定动作和对象时生成效果轨迹,并且能够在给定效果轨迹和对象时生成动作轨迹。
Apr, 2024
本论文介绍了一个名为 3D AffordanceNet 的数据集,其中包含来自 23 个语义对象类别的 23k 个形状,注释了 18 个视觉可用性类别,并提供了三个评估视觉可用性理解的基准测试任务。作者评估了三种最先进的点云深度学习网络,并研究了半监督学习设置探索利用未标记数据的可能性。综合结果表明,视觉可用性理解是一个有价值但具有挑战性的基准测试。
Mar, 2021
采用模块化神经网络体系结构,利用合成数据和模拟技术,通过低维潜在表示生成场景可用性,成功训练机械臂政策。同时,提出了一种数据集生成方法,可轻松推广到新任务、对象和环境,无需手动像素标记。
Mar, 2019
提出了一种利用 Large Language Models(LLMs)来改善基于任务规划中推理能力的经典规划算法固有限制的系统 AutoGPT+P,该系统结合了基于行动能力的场景表示和规划系统,并能够在自然语言中为用户指定的任务推导和执行计划。
Feb, 2024