Nov, 2023
具有随机有状态策略的高效强化学习
Time-Efficient Reinforcement Learning with Stochastic Stateful Policies
Firas Al-Hafez, Guoping Zhao, Jan Peters, Davide Tateo
TL;DR通过对后续政策梯度的跟踪,我们提出了一种训练有状态政策的新方法,将其分解为随机内部状态核和无状态策略,实现了对流行强化学习和模仿学习算法的有状态变体,同时比传统的逆传播算法具有更快和更简单的特点。