Mar, 2022

非参数策略梯度算法在非平稳环境中的策略调整

TL;DR该研究提出了一种非参数学习的策略,通过嵌入策略分布作为非递减的欧几里得空间中的特征,从而允许其搜索空间在非常高(可能无限)维的 RKHS(再生核希尔伯特空间)中定义。同时,通过在 RKHS 中计算的相似度度量,与 Adaptive H 技术相结合,实现优化动态环境下自主适应的最佳控制策略的非参数学习方法。实验证明,该方法在多个基准测试和一个配备动态变化环境的仿真机器人基准测试中优于 DDPG 和 TD3 方法。