ICMLJun, 2018

强化学习中发现和消除外生状态变量和奖励

TL;DR本文提出了两个算法来发现外生变量,并证明了蒙特卡洛策略评估在内生 MDP 上的加速。结果显示这些算法是实用的,并且可以显著提高强化学习的速度。