Jul, 2020

基于因式策略的终身策略梯度学习:快速训练且不会遗忘

TL;DR本研究提供了一种新的、基于生命全程政策梯度学习的策略训练方法,该方法可以直接训练终身函数逼近器,以便智能体在整个训练过程中从累积的知识中受益。本文表明,与单任务和学终身学习基线相比,我们的算法学习更快,收敛到更好的策略,并且在多种挑战性领域完全避免了灾难性遗忘。