BriefGPT.xyz
Jun, 2021
抗腐败离线强化学习
Corruption-Robust Offline Reinforcement Learning
HTML
PDF
Xuezhou Zhang, Yiding Chen, Jerry Zhu, Wen Sun
TL;DR
本文研究线性MDP环境下基于离线数据集的对抗鲁棒强化学习问题,提出并分析了罕见奖励污染情况下的最优区间,展示了由最优区间出发,直接针对初始化状态的改进算法;同时,我们指出该离线场景下普适的主动鲁棒化机制并不存在(例如动态调参等),并建议未来应着重于该问题的研究。
Abstract
We study the
adversarial robustness
in
offline reinforcement learning
. Given a batch dataset consisting of tuples $(s, a, r, s')$, an adversary is allowed to arbitrarily modify $\epsilon$ fraction of the tuples.
→