Aug, 2021

一种用于稳定和高效强化学习的通用代理函数类

TL;DR提出一种基于FMA-PG的泛用框架来构造policy gradient方法的代理函数,并保证了策略改进的性质,从而使得该框架下的算法不受策略参数化的影响,并且能够实现一些实现技术的改进。在简单的赌徒问题上,我们对FMA-PG实例化出来的算法进行了实验,并发现这种框架也能够提出比PPO更加高效的算法。