AAAIJun, 2021

相同状态、不同任务:避免干扰的连续增强学习

TL;DR本文研究的是连续学习 (CL) 中的关键问题:如何在学习新任务时保留所有先前任务的良好表现。作者提出了一种名为 OWL 的简单方法,基于因子化策略来解决一些任务本质上不兼容的问题,并使用赌博算法进行策略选择,从而在多个强化学习环境中成功实现了连续学习。