Jun, 2020

策略梯度方法的操作符视角

TL;DR本文通过引入操作符的概念,将传统的强化学习算法中的策略梯度方法如REINFORCE和PPO等转化成了操作符形式,从而更好地理解它们的原理,同时通过引入新的全局下限,进一步弥合了基于策略和基于价值的方法之间的差距,将REINFORCE算法和贝尔曼最优化操作符视为同一概念的两个方面。