Jun, 2020

非静态马尔科夫决策过程的强化学习:(更多)乐观的祝福

TL;DR本研究使用不打折扣的强化学习方法,针对马尔可夫决策过程中的漂移非稳定性问题,提出了 Sliding Window Upper-Confidence bound for Reinforcement Learning with Confidence Widening 算法和 Bandit-over-Reinforcement Learning 算法,并证明了它们的动态后悔限制及其在参数不确定性情况下的适应性。