利用对称性和启发式演示的离线策略强化学习在机器人操纵中的应用

Apr, 2023

利用对称性和启发式演示的离线策略强化学习在机器人操纵中的应用

Exploiting Symmetry and Heuristic Demonstrations in Off-policy Reinforcement Learning for Robotic Manipulation

Amir M. Soufi Enayati, Zengjie Zhang, Kashish Gupta, Homayoun Najjaran

TL;DR本研究旨在定义和纳入物理机器人环境中的自然对称，利用行为克隆和强化学习相结合的方法，通过专家演示在对称环境下训练高效的模型无关强化学习策略，为普通操作任务的学习性能提供了新的可行方法。实验研究结果显示，相较于传统的策略外学习算法，该方法具有更好的学习性能和应用价值。

Abstract

reinforcement learning demonstrates significant potential in automatically building control policies in numerous domains, but shows low efficiency when applied to robot manipulation tasks due to the curse of dime

reinforcement learning robot manipulation symmetry behavior cloning off-policy learning

发现论文，激发创造

异步离线更新下的机器人操作深度强化学习

本文介绍一种基于深度 Q 函数算法的深度强化学习方法，能够实现在真实的物理机器人上进行复杂的 3D 操作任务学习，并通过多个机器人异步汇聚优化策略更新等技术进一步提高训练效率。

Oct, 2016

学习设计和使用机器人操纵工具

通过深度学习和强化学习相结合的方法，本文提出了一种学习策略来解决机器人的操纵任务，并展示了比先前方法更高的样本效率、对未见过任务的适应性以及在实际约束条件下复杂性设计和控制策略之间的权衡。

Nov, 2023

非抓取性操作的强化学习：从仿真到物理系统的转移

本研究使用一种修改自然策略梯度算法的模型，通过模拟学习并训练，成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中，并证明使用多个模型训练可以使学习到的策略更加稳健，从而弥补了系统识别的困难。

Mar, 2018

基于模拟运动演示的机器人操纵强化学习

本文提出了一种新的机器人操作方法，该方法利用了物体本身的运动学习，通过使用物理模拟器中的对象运动策略生成辅助奖励，称为模拟运动演示奖励（SLDRs），该方法可以在不需要人类演示或昂贵成本的情况下，通过强化学习来掌握机器人操作技能，从而实现多物体堆放和非刚性物体操作等任务的更高成功率和更快学习。

Oct, 2019

使用引导式策略搜索学习接触丰富型操作技能

本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法，该方法可以扩展最近开发的策略搜索方法，并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹，然后将这些轨迹统一到一个单一的控制策略中。

Jan, 2015

使用远程遥操作的人在循环中模仿学习

本文介绍使用干预性策略学习的方法来解决机器人操作任务中必须经过精确定序的地方的问题，提出一种 6 自由度机器人操作任务的数据采集系统，并开发了一个简单而有效的算法来收集新数据以遍历通过这些难点，使用干预策略学习的代理在机器人的线路穿线任务和制造咖啡任务中的表现优于其他多种基线算法。

Dec, 2020

无监督离策略强化学习实现真实世界机器人技能

本文提出的无监督技能发现算法可用于进行高效无监督增强学习，通过模型预测控制将学习到的技能组合用于目标导航。

Apr, 2020

通过有限的演示学习复杂的操作技能的确定性策略

提出了一种名为 TD3fG 算法的新算法，旨在通过学习经验和专家的有机转换，帮助代理从低质量和不充分的演示中提取先前的知识，从而减少对演示的不良影响。该算法对于具有有限演示的机械臂和 MuJoCo 任务表现良好。

Mar, 2023

使用参数化操作基元学习外在灵巧性

通过学习层次化强化学习，我们能够利用环境改变目标物体的姿态，无需物体检测、姿态估计或手动设计控制器，从而成功地完成 98% 的实验任务。

Oct, 2023

在真实机器人硬件上进行离线强化学习的基准测试

从先前记录的数据中学习策略是实现真实世界机器人任务的一个有前景的方向，我们提出了一个基准，其中包括：使用能力强大的强化学习代理在模拟中训练的两个任务的熟练操纵平台的大量离线学习数据的收集，在真实世界机器人系统和模拟中执行学习策略的选项以进行高效调试。我们评估了知名的开源离线强化学习算法，并为真实系统上的离线强化学习提供了可重现的实验设置。

Jul, 2023