Nov, 2020

强化学习中基于奖励偏置的最大似然估计

TL;DR该研究提出了一种针对自适应控制的方法 - Reward-Biased Maximum Likelihood Estimate(RBMLE),旨在解决 Markov 链控制中的 “探索与开采问题” 和 “双控制问题”,同时在最优化参数时采用了一种新的乐观方法,该方法在各种情况下被证明是长期平均回报最优的,并在有限时间内具有与现有算法相当的抱怨。