Mar, 2023

混沌中的阶梯:通过策略路径修剪和增强对普适 DRL 算法进行简单有效的改进

TL;DR本文研究深度强化学习代理策略网络在学习过程中的演化,发现参数更新存在重大方向和次要方向,提出了基于此发现的简单而有效的方法 Policy Path Trimming and Boosting (PPTB),并证明其与 TD3 和 RAD 在 MuJoCo 和 DMC 环境中结合使用可以带来更好的性能改进。