Jun, 2020

离线动态强化学习: 通过领域分类器进行转移训练

TL;DR我们提出了一种简单、实用和直观的强化学习领域自适应方法,通过修改奖励函数,使用辅助分类器来区分源域和目标域,对源域中不可能出现的状态进行惩罚,适用于连续状态和动作的域,可扩展至高维任务。