May, 2022
倒置强化学习在具有周期性重置的随机环境下可能会发散
Upside-Down Reinforcement Learning Can Diverge in Stochastic
Environments With Episodic Resets
Miroslav Štrupl, Francesco Faccio, Dylan R. Ashley, Jürgen Schmidhuber, Rupesh Kumar Srivastava
TL;DR通过解释一个特定的UDRL算法(eUDRL)是一个递归策略更新, 对于广泛类别的随机环境非正常收敛的证明,从而漏洞了具有收敛保证性的强化学习算法期望。