Dec, 2021

改进的随机最短路径线性MDP无悔算法

TL;DR提出两种新的无懊悔算法解决带有线性MDP的随机最短路径问题,其中第一种算法能够以较低的计算成本获得较小的后悔界,并且对于有限时间情况,还获得了对数后悔界;而第二种算法则实现了无时间限制情况下的近乎最优性,但计算成本较高。