用于欠驱动双摆任务的平均奖励最大熵强化学习

Sep, 2024

用于欠驱动双摆任务的平均奖励最大熵强化学习

Average-Reward Maximum Entropy Reinforcement Learning for Underactuated Double Pendulum Tasks

Jean Seong Bjorn Choe, Bumkyu Choi, Jong-kook Kim

TL;DR本研究解决了为 AI 奥林匹克竞赛开发的 acrobot 和 pendubot 的摆动提升和稳定化任务，填补了现有方法的不足。我们提出了平均奖励熵优势策略优化（AR-EAPO）算法，这是一种无模型的强化学习方法，结合了平均奖励与最大熵的方法。实验结果表明，该控制器在性能和鲁棒性方面超过了现有基准方法，且不依赖于复杂的奖励函数或系统模型。

Abstract

This report presents a solution for the swing-up and stabilisation tasks of the acrobot and the pendubot, developed for the AI Olympics competition at IROS 2024. Our approach employs the Average-Reward Entropy Advantage Policy Optimization (AR-EAPO), a model-free →

发现论文，激发创造

通过探索未被重视的奖励来改进政策梯度

本文提出了一种新颖的无模型强化学习策略梯度算法，采用基于概率的有指导性的探索策略，相比现有熵正则化方法更有效地探索高维度的稀疏奖励空间，并在一系列算法任务上得到了成功的应用。

Nov, 2016

残差策略学习

本文介绍了一种简单的方法——残差策略学习（Residual Policy Learning，RPL），用于改善使用模型自由深度强化学习来提高非可微策略。我们在面对复杂的机器人操作任务时，研究了RPL的应用，这些任务中存在良好但不完美的控制器。与从头开始的强化学习相比，RPL在这些任务中可以获得显著的改进。在六个挑战性的MuJoCo任务中，我们将初始控制器设置为手动设计的策略和具有已知或学习转移模型的模型预测控制器。通过将学习与控制算法相结合，RPL可以执行长时程、稀疏奖励任务，而仅使用强化学习则失败。此外，我们发现RPL在改善初始控制器方面一致且显著。我们认为RPL是结合深度强化学习和机器人控制互补优势的一种有前途的方法，推动了两者独立实现的边界。

Dec, 2018

Tsallis强化学习：最大熵强化学习的统一框架

本文提出了一种新的马尔可夫决策过程类别Tsallis MDPs，用于强化学习问题和各种类型熵的使用，包括标准Shannon-Gibbs熵，并使用一个额外的实数值参数，称为熵指数，控制了勘探倾向和优化政策的不同维度，所提出方法采用Tsallis的熵极大化，并以无模型演员-评论家策略进行实现，在MuJoCo模拟器上进行验证并取得最先进的性能。

Jan, 2019

无监督离策略强化学习实现真实世界机器人技能

本文提出的无监督技能发现算法可用于进行高效无监督增强学习，通过模型预测控制将学习到的技能组合用于目标导航。

Apr, 2020

基于策略的深度强化学习在平均回报准则下的应用

本研究针对均值回报的强化学习问题，提出了一种考虑策略改善和深度强化学习相结合的新算法 ATRPO，实验结果表明该算法在 MuJuCo 环境中不仅能够有效应对较为复杂的任务，而且在长期平均回报上的表现也优于传统算法 TRPO。

Jun, 2021

基于确定性策略搜索的离线平均回报演员-评论家算法

本文研究了强化学习中平均回报和折扣回报的区别，提出了面向平均回报的策略梯度定理，同时开发了基于此理论的 Average Reward Off-Policy Deep Deterministic Policy Gradient (ARO-DDPG) 算法。实验结果表明，ARO-DDPG 在 MuJoCo 环境中优于现有的基于平均回报的策略方法。

May, 2023

使用平均奖励标准的逆强化学习

本文提出了一种基于平均奖励框架的逆强化学习方法，并通过研发一系列随机一阶方法用以有效减少计算复杂度，这些方法可用于解决平均奖励马尔可夫决策过程的子问题，并为对策镜像下降法提供支持。最终，我们在 MuJoCo 基准测试和其他控制任务中进行数值实验以验证分析。

May, 2023

用SAC解决Acrobot和Pendubot的摆动和平衡任务

我们提出了一个基于强化学习算法的解决方案，用于在IJCAI 2023的人工智能奥林匹克竞赛中完成摇摆和平衡任务，基于Soft Actor Crtic (SAC)算法训练摇摆和进入线性二次调节器（LQR）控制器吸引区域的策略来稳定双摆杆处于顶部位置，我们的控制器在性能和鲁棒性方面实现了竞争分数，适用于pendubot和acrobot问题场景。

Dec, 2023

无模型熵正则化逆强化学习算法的收敛性

给定一个专家示范数据集，逆向强化学习（IRL）旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的IRL问题。我们采用随机梯度下降算法更新奖励，并采用随机软策略迭代算法更新策略，假设可以访问一个生成模型，我们证明了我们的算法使用O(1/ε^2)个马尔可夫决策过程（MDP）样本能够恢复一个ε-最优奖励。此外，我们证明在O(1/ε^4)个样本情况下，所恢复的奖励对应的最优策略与专家策略在总变差距离上接近ε。

Mar, 2024

RVI-SAC：基于平均奖励的离线深度强化学习

本研究解决了现有深度强化学习方法在持续任务中训练目标与性能指标之间的差异问题，倡导使用平均奖励标准。我们提出的RVI-SAC，通过应用RVI Q-learning进行评论员更新，引入平均奖励软策略提升定理进行行动者更新，并自动调整重置成本，实现了在终止任务中应用平均奖励强化学习的可能性。实验结果表明，RVI-SAC在Gymnasium的Mujoco任务中表现出与其他方法竞争的性能。

Aug, 2024