Nov, 2023

具有随机有状态策略的高效强化学习

TL;DR通过对后续政策梯度的跟踪,我们提出了一种训练有状态政策的新方法,将其分解为随机内部状态核和无状态策略,实现了对流行强化学习和模仿学习算法的有状态变体,同时比传统的逆传播算法具有更快和更简单的特点。