May, 2022

倒置强化学习在具有周期性重置的随机环境下可能会发散

TL;DR通过解释一个特定的UDRL算法(eUDRL)是一个递归策略更新, 对于广泛类别的随机环境非正常收敛的证明,从而漏洞了具有收敛保证性的强化学习算法期望。