ICLRJun, 2020
离线动态强化学习:通过领域分类器进行转移训练
Off-Dynamics Reinforcement Learning: Training for Transfer with Domain Classifiers
Benjamin Eysenbach, Swapnil Asawa, Shreyas Chaudhari, Sergey Levine, Ruslan Salakhutdinov
TL;DR我们提出了一种简单、实用和直观的强化学习领域自适应方法,通过修改奖励函数,使用辅助分类器来区分源域和目标域,对源域中不可能出现的状态进行惩罚,适用于连续状态和动作的域,可扩展至高维任务。