可组合的深度强化学习在机器人操作中的应用

Mar, 2018

可组合的深度强化学习在机器人操作中的应用

Composable Deep Reinforcement Learning for Robotic Manipulation

Tuomas Haarnoja, Vitchyr Pong, Aurick Zhou, Murtaza Dalal, Pieter Abbeel...

TL;DR本研究探讨软 Q-learning 方法在真实世界机器人操作中的应用，证明软 Q-learning 方法比先前的模型自由深度强化学习方法具有更高的采样效率，并且可以通过将学习到的策略组合创建新的策略，从而在真实世界机器人操作中提供高效的工具。

Abstract

model-free deep reinforcement learning has been shown to exhibit good performance in domains ranging from video games to simulated robotic manipulation and locomotion. However, →

model-free deep reinforcement learning real-world robotic manipulation soft q-learning compositionality

发现论文，激发创造

异步离线更新下的机器人操作深度强化学习

本文介绍一种基于深度 Q 函数算法的深度强化学习方法，能够实现在真实的物理机器人上进行复杂的 3D 操作任务学习，并通过多个机器人异步汇聚优化策略更新等技术进一步提高训练效率。

Oct, 2016

非抓取性操作的强化学习：从仿真到物理系统的转移

本研究使用一种修改自然策略梯度算法的模型，通过模拟学习并训练，成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中，并证明使用多个模型训练可以使学习到的策略更加稳健，从而弥补了系统识别的困难。

Mar, 2018

无监督离策略强化学习实现真实世界机器人技能

本文提出的无监督技能发现算法可用于进行高效无监督增强学习，通过模型预测控制将学习到的技能组合用于目标导航。

Apr, 2020

基于模拟运动演示的机器人操纵强化学习

本文提出了一种新的机器人操作方法，该方法利用了物体本身的运动学习，通过使用物理模拟器中的对象运动策略生成辅助奖励，称为模拟运动演示奖励（SLDRs），该方法可以在不需要人类演示或昂贵成本的情况下，通过强化学习来掌握机器人操作技能，从而实现多物体堆放和非刚性物体操作等任务的更高成功率和更快学习。

Oct, 2019

用于处理各种机器人手臂任务的离策略深度强化学习算法

本研究使用 DDPG、TD3 和 SAC 三种基于强化学习的算法，在 MuJoCo 仿真环境下对 Fetch 机器人操作器进行四项不同任务的训练，并分析了这三种算法在控制环境中的效率和速度。

Dec, 2022

轨迹中心增强学习的模型基与模型无更新相结合

本文研究如何在模型无关和模型有关的强化学习方法中结合时间变化的线性高斯策略，通过基于线性二次调节器的模型有关算法与基于路径积分策略改进的模型无关框架相结合，并与指导策略搜索相结合，训练深度神经网络等任意参数策略，以提高实时机器人应用的模型效率和数据效率。研究表明，该方法可以解决具有挑战性的操作任务，其表现与模型无关方法相比具有可比性或更好的表现，同时保持模型有关方法的样本效率。

Mar, 2017

基于视觉的机器人抓取的深度强化学习：一种离线策略方法的仿真比较评估

本文研究基于视觉的机器人抓取中的深度强化学习算法，提出了一个模拟的基准测试对齐机器人抓取任务，评估了基准测试任务的不同 Q 函数估计方法，结果表明简单方法可以成为流行算法的强有力竞争对手，此外还阐明了算法的相对权衡

Feb, 2018

信息论模型预测 Q 学习

本研究提出了一种基于信息理论模型预测控制和熵正则化强化学习的 Q 学习算法，可以利用有偏模型，并在模拟控制任务中验证了该算法的有效性。

Dec, 2019

数据高效的灵巧操作深度强化学习

本研究使用深度学习和强化学习方法解决机器人的熟练操作任务，同样使用了 DDPG 算法来扩展其功能以实现更高效的数据利用与可伸缩性，成功地使用现实世界的抓取和叠放机器人的交互数据训练出其掌握复杂熟练操作技能的有效策略模型。

Apr, 2017

利用对称性和启发式演示的离线策略强化学习在机器人操纵中的应用

本研究旨在定义和纳入物理机器人环境中的自然对称，利用行为克隆和强化学习相结合的方法，通过专家演示在对称环境下训练高效的模型无关强化学习策略，为普通操作任务的学习性能提供了新的可行方法。实验研究结果显示，相较于传统的策略外学习算法，该方法具有更好的学习性能和应用价值。

Apr, 2023