Sep, 2020

强化学习是否比赌博机问题更困难?一种逃离时限诅咒的近似最优算法

TL;DR提出了一种新的基于 Bernoulli 奖励的算法 Monotonic Value Propagation(MVP)来应对具有长期规划的暂态强化学习问题,并通过证明其具有与语境损失算法相同且优于最先进的算法的范围复杂度,使其能够有效地处理此类问题。