Oct, 2023

绝对政策优化

TL;DR最近几年,基于信任区域的在线强化学习在解决复杂控制任务和游戏场景方面取得了显著成果。然而,该类别内现有的最先进算法主要强调期望性能的提升,缺乏对最坏情况下性能结果的控制能力。为了解决这一局限性,我们引入了一种新的目标函数;通过优化该函数,将保证在近乎完全性能样本(绝对性能)的下界上实现单调提升。鉴于这一破创性的理论进展,我们通过一系列近似对该理论基础算法进行了改进,得到了一种实用的解决方案,称为绝对策略优化(APO)。我们的实验证明了我们的方法在具有挑战性的连续控制基准任务上的有效性,并将其适用性扩展到掌握 Atari 游戏。我们的研究结果表明,APO 明显优于最先进的策略梯度算法,在期望性能和最坏情况下性能方面都取得了实质性的改进。