优化深度强化学习用于自适应机械臂控制

Jun, 2024

优化深度强化学习用于自适应机械臂控制

Optimizing Deep Reinforcement Learning for Adaptive Robotic Arm Control

Jonaid Shianifar, Michael Schukat, Karl Mason

TL;DR本文探讨了使用树状 Parzen 估计器（TPE）对七自由度（DOF）机器人臂控制中的 Soft Actor-Critic（SAC）和 Proximal Policy Optimization（PPO）算法进行超参数优化的方法，在 50K 周期的训练中，实验结果显示 TPE 显著提高了算法的性能，提升了 SAC 的成功率 10.48 个百分点，提高了 PPO 的成功率 34.28 个百分点；此外，TPE 使得 PPO 在较短时间内能以最大奖励的 95% 收敛，比无 TPE 情况下快 76%，相当于节省了大约 40K 个周期的训练时间以达到最佳性能；对于 SAC 来说，优化的速度比无 TPE 的情况快 80%；本研究强调了先进的超参数优化对于复杂机器人任务中深度强化学习算法效率和成功率的影响。

Abstract

In this paper, we explore the optimization of hyperparameters for the Soft Actor-Critic (SAC) and proximal policy optimization (PPO) algorithms using the →

hyperparameters soft actor-critic proximal policy optimization tree-structured parzen estimator robotic arm control

发现论文，激发创造

基于视觉的机器人深度强化学习算法基准测试

本文通过比较常用强化学习算法及其变种在两个模拟视觉机器人问题中的表现，提出的策略包括提供实现 HER 算法所需中间预测目标，搭建空间和时间关注机制。结果表明，在这些环境中应用这些策略可以取得更好的结果。本文提出的基准测试方法为领域做出了新的贡献。

Jan, 2022

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

基于改进近端策略优化的机械臂关节空间障碍物避免

该研究提出一种新的基于邻近策略优化（PPO）的无模型强化学习方法，用于训练深度策略将任务空间映射到 6-DoF 机械臂的关节空间，用于解决机器人在随机目标和障碍物下进行的触及任务困难的问题。

Oct, 2022

软性演员 - 评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

神经近端 / 信任区域策略优化实现全局最优策略

本文研究使用神经网络来完成深度强化学习中的策略优化，其中包括策略梯度和动作价值函数。在此基础上，通过分析无限维镜像下降的全局收敛性，证明了 PPO 和 TRPO 在使用过度参数化神经网络时收敛于全局最优策略，且收敛速度为次线性。

Jun, 2019

深度强化学习下的模型预测行动者 - 评论家算法：加速机器人技能获取

介绍了一种基于模型预测控制的混合模型学习和无模型学习方法，名为 MoPAC，通过探索 / 利用以减轻模型偏差，可以实现真实机器人的训练。该方法使用优化轨迹指导策略学习，并且在需要时进行探索。通过实验，MoPAC 方法优于当前最先进的方法，适用于真实机器人的训练，同时为物体夹取、操作和重新夹取等复杂任务提供了一种优化技能学习的解决方案。

Mar, 2021

用于处理各种机器人手臂任务的离策略深度强化学习算法

本研究使用 DDPG、TD3 和 SAC 三种基于强化学习的算法，在 MuJoCo 仿真环境下对 Fetch 机器人操作器进行四项不同任务的训练，并分析了这三种算法在控制环境中的效率和速度。

Dec, 2022

深度强化学习下的网络控制处理

探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用，为此针对马尔可夫决策过程和半马尔可夫决策过程问题，优化了现有的策略改进边界，并提出了新的策略改进边界，并使用定制的 PPO 算法对处理网络控制问题进行了解决。

May, 2022

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020

重新审视近端策略优化中的设计选择

本文介绍了 Proximal Policy Optimization (PPO) 算法，探讨了算法的设计和实现，指出了标准实现方式中存在的三个失败模式，提出了替代方案。同时，本文认为我们应该注意算法的设计与模拟环境之间的关系。

Sep, 2020