Jul, 2022

应对生涯强化学习中非稳态性的反应性探索

TL;DR该论文探讨了在终身学习的情境下如何跟踪和适应持续的领域转变,为此提出了反应式探索方法,并基于实验证明,策略梯度方法是适合于终身学习的一种学习方法,能更快地适应分布变化。