物理引导的分层奖励机制用于学习式物体抓取

May, 2022

物理引导的分层奖励机制用于学习式物体抓取

Physics-Guided Hierarchical Reward Mechanism for Learning-Based Object Grasping

Yunsik Jung, Lingfeng Tao, Michael Bowman, Jiucai Zhang, Xiaoli Zhang

TL;DR本文提出了基于物理引导的深度强化学习方法用于改善学习效率和推广性，在多指机器人手势能力的数据集上进行测试，结果表明，该方法在任务性能方面优于标准深度强化学习方法 48% 和学习效率 40%。

Abstract

learning-based grasping can afford real-time motion planning of multi-fingered robotics hands thanks to its high computational efficiency.

learning-based grasping motion planning multi-fingered robotics hands deep reinforcement learning physics-informed metrics

发现论文，激发创造

使用参数化操作基元学习外在灵巧性

通过学习层次化强化学习，我们能够利用环境改变目标物体的姿态，无需物体检测、姿态估计或手动设计控制器，从而成功地完成 98% 的实验任务。

Oct, 2023

基于强化学习的物体几何形态高效表征与互动抓取策略学习

本文提出一种基于强化学习的框架，通过连续地控制一个类人机械手，学习各种几何不同的实际物体的交互抓取。该框架在物体几何的显式表示方面进行了探索，并且通过符号距离隐式地指导搜索，最终表现出在更具挑战性的条件下学习的能力。

Nov, 2022

在混乱环境中有效学习面向目标的推 - 抓协同技能

本文提出了一种高样本效率的目标导向层次强化学习模型，使用推和抓策略来实现在混乱环境下抓取指定目标物体，经过一系列实验验证表明，该模型表现出了高的任务完成率和目标抓取成功率，并能够适应目标不明确的条件，并且可以直接转移到实际应用中。

Mar, 2021

基于物理模拟的残余强化学习和估算手部姿态的熟练性操作

该研究提出了一种基于深度传感器和一种先进的 3D 手姿估计器的模型，使用模型自由的混合强化学习和模仿学习方法训练代理来实现虚拟环境中手 - 物体交互，通过引入物理约束，使得机器人能够完成更高效的手 - 物体操作。

Aug, 2020

具有自适应分层课程的多阶段多目标手指灵巧操纵

本研究提出了一种新的自适应分层奖励机制 (AHRM)，可以解决机器人在学习掌握多目标任务时，具有多个目标且优先级可能在不同阶段发生变化的情况下，无法以深度强化学习方法学习最佳策略的问题。实验结果表明，所提出的方法在多目标操作任务的 JACO 机械臂中能够提高机器人的学习效率和任务性能。

May, 2022

全身手物互动合成的真实物理模拟

我们提出了一种基于物理的方法来合成全身手物交互。通过通过一个层次化框架，并结合强化学习和物理仿真，我们首先在解耦环境中学习身体和手部运动的技能先验。然后，我们使用一个新颖的奖励函数训练一个高层策略，以在预训练的潜在空间中控制手物交互。我们的方法成功完成了从接近物体到抓取和后续操纵的完整交互任务，并展示出比基于运动学的基线方法更具物理合理性的动作。

Sep, 2023

深度强化学习在复杂环境下的机器人推和取

本文提出了一种新颖的机器人抓取系统，由气泡吸盘和机械手抓手组成。利用可供性地图提供像素级的气泡吸盘升力点候选物，并引入主动探索机制，设计了一种有效的度量来计算当前可供性地图的奖励，并使用深度 Q 网络（DQN）指导机器人手探索环境，实验结果表明，所提出的机器人抓取系统能够大大提高在混乱场景中的机器人抓取成功率。

Feb, 2023

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

基于视觉的机器人抓取的深度强化学习：一种离线策略方法的仿真比较评估

本文研究基于视觉的机器人抓取中的深度强化学习算法，提出了一个模拟的基准测试对齐机器人抓取任务，评估了基准测试任务的不同 Q 函数估计方法，结果表明简单方法可以成为流行算法的强有力竞争对手，此外还阐明了算法的相对权衡

Feb, 2018

使用引导式策略搜索学习接触丰富型操作技能

本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法，该方法可以扩展最近开发的策略搜索方法，并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹，然后将这些轨迹统一到一个单一的控制策略中。

Jan, 2015