面向物体的机器人操作的体现学习调研
本文提出了一种新的机器人操作方法,该方法利用了物体本身的运动学习,通过使用物理模拟器中的对象运动策略生成辅助奖励,称为模拟运动演示奖励(SLDRs),该方法可以在不需要人类演示或昂贵成本的情况下,通过强化学习来掌握机器人操作技能,从而实现多物体堆放和非刚性物体操作等任务的更高成功率和更快学习。
Oct, 2019
本研究介绍了一种在深度强化学习循环中嵌入面向对象视觉助力模型的方法,以学习优先选择与人类喜欢的对象区域相同的抓握策略,实现对物体的灵活抓握能力。通过40个物体的实验,表明该方法可以显著提高抓握策略效能,泛化能力较强,比普通基线方法的训练速度更快,且更能适应噪声传感器。
Sep, 2020
本文提出了一个基于 AI2-THOR 框架的物体操作框架并提出了一个名为 ArmPointNav 的新挑战任务,以扩展点导航任务到物体操作,并提供了新的挑战,包括 3D 障碍物避免、存在遮挡的物体操作以及多物体操作,并指出了 PointNav 挑战中成功的流行学习范例仍有大量改进空间。
Apr, 2021
本研究使用视觉契合技术,通过预测关键点的接触信息,提出了一种端到端的控制策略学习框架,可以实现在不同类型的操纵任务中的泛化。结果显示,我们的算法在成功率上大大优于基线算法,包括基于视觉契合和强化学习方法。
Sep, 2022
本文提出了一种基于行为感知的具有身体的学习框架,该框架通过结合强化学习和反向动力学预测目标来将行动信息纳入表示学习中,主动探索复杂的 3D 环境,从而学习可推广的任务不可知表示,并收集下游训练数据,以目标检测和语义分割任务为例,证明了该方法在视觉模型基准测试中的优势表现,并表明通过在更贴近环境和任务的实时数据上进行训练,我们的方法比在 ImageNet 等固定数据集上预训练的模型更具有鲁棒性。
Jun, 2023
本研究针对模仿学习算法在工业高精度环境中的应用,探讨了其超参数敏感性、培训简易性、数据效率和性能等方面的缺乏研究。通过对多接触复杂双手操作任务的评估,揭示了不同算法在应对环境和超参数扰动、训练需求、性能及易用性方面的差异,为选择合适的模仿学习算法提供了实证依据。
Aug, 2024
本研究解决了机器人学习中数据集小且多样性不足的问题,提出了CrossFormer,一种基于变换器的灵活政策,能够处理任意体形的数据。通过在全球最大和最丰富的数据集上训练,结果表明该模型能够有效控制各种机器人,且性能优于专门针对特定体形的政策,为跨体学习开辟了更广阔的前景。
Aug, 2024
本研究解决了当前生成世界模型在物体操作任务中位置性信息表示不足的问题。通过引入位置条件(PCP)和潜在条件(LCP)策略学习的方法,我们提出了一种新的方式,以提高代理在物体定位任务中的表现。实验结果显示,所提方法在多个操作环境中表现优越,推动了物体操作的多模态能力发展。
Sep, 2024
本研究解决了当前生成世界模型在物体操作任务中表现不佳的问题,尤其是其在位置性信息表示上的不足。我们提出了一种新方法,利用位置条件(PCP)和潜在条件(LCP)策略学习,使代理能够更有效地执行物体定位任务。实验结果表明,这些方法在多个操作环境中表现优越,有助于提升机器人操作能力。
Sep, 2024