ICMLFeb, 2019
持续增强学习的策略融合
Policy Consolidation for Continual Reinforcement Learning
Christos Kaplanis, Murray Shanahan, Claudia Clopath
TL;DR提出了一种针对深度强化学习中灾难性遗忘问题的方法,名为 “策略整合” 模型,能够在不同时间尺度上改进学习效果,适应环境变化并通过历史经验规范化当前策略,从而提高连续学习的效果,在单任务、交替双任务和多智能体竞争自我对抗环境下均表现出了比基线优异的学习效果。