Jun, 2020

深度强化学习中的瞬态非平稳性和泛化

TL;DR该论文探讨了强化学习中非稳态性的问题,提出了一个名为 ITER 的算法来改善深度强化学习的性能,通过该算法将当前的策略知识重复迁移到一个新的网络中,从而减少非稳态性对训练的影响。实验证明,该方法有效地提高了深度强化学习的泛化性能。