Jun, 2020
深度强化学习中的瞬态非平稳性和泛化
Transient Non-Stationarity and Generalisation in Deep Reinforcement Learning
Maximilian Igl, Gregory Farquhar, Jelena Luketina, Wendelin Boehmer, Shimon Whiteson
TL;DR该论文探讨了强化学习中非稳态性的问题,提出了一个名为 ITER 的算法来改善深度强化学习的性能,通过该算法将当前的策略知识重复迁移到一个新的网络中,从而减少非稳态性对训练的影响。实验证明,该方法有效地提高了深度强化学习的泛化性能。