Jun, 2022

一种参数化的策略优化近似梯度更新类

TL;DR研究了策略优化的不同方法,利用统一的视角,将其转化为梯度形式和比例函数的更新,在保证高度结构化的同时,得到了一些新的更新算法,可以在合成域和深度强化学习基准测试中得到非平凡的改进。