Sep, 2024

用于欠驱动双摆任务的平均奖励最大熵强化学习

TL;DR本研究解决了为 AI 奥林匹克竞赛开发的 acrobot 和 pendubot 的摆动提升和稳定化任务,填补了现有方法的不足。我们提出了平均奖励熵优势策略优化(AR-EAPO)算法,这是一种无模型的强化学习方法,结合了平均奖励与最大熵的方法。实验结果表明,该控制器在性能和鲁棒性方面超过了现有基准方法,且不依赖于复杂的奖励函数或系统模型。