ICMLMay, 2020

非平稳 MDPs 中的未来优化

TL;DR本文介绍了一种名为 Prognosticator 的策略梯度算法,这种算法通过对政策性能的预测来主动搜索一个好的未来策略,并且通过将过去数据进行非均匀重新赋权,使该算法比其他两种在线适应技术更具鲁棒性。