Jun, 2021

抗腐败离线强化学习

TL;DR本文研究线性MDP环境下基于离线数据集的对抗鲁棒强化学习问题,提出并分析了罕见奖励污染情况下的最优区间,展示了由最优区间出发,直接针对初始化状态的改进算法;同时,我们指出该离线场景下普适的主动鲁棒化机制并不存在(例如动态调参等),并建议未来应着重于该问题的研究。