ICLRMar, 2022

DARA: 离线强化学习中的动态感知奖励增强

TL;DR该论文提出了一种离线动态适应的强化学习方法,实现了对目标任务中状态转移对的学习,并且通过奖励增强在源任务的离线数据集中的学习,显著降低了在目标环境下的数据要求。