Jun, 2021

通过后验采样的随机最短路径模型在线学习

TL;DR该研究提出了一种基于后验采样的在线强化学习算法,即 PSRL-SSP,用于解决短路径问题,该算法只需要先验分布的知识,并且具有贝叶斯后悔界,是首个这样的后验采样算法,并在数值上优于之前提出的基于乐观主义的算法。