Feb, 2020

随机最短路径的近最优遗憾边界

TL;DR本文介绍了一种解决随机最短路径问题的算法,其中代理必须通过在有限次数的游戏中获得最佳策略,从而在最短期望代价下达到目标状态。通过探究悔恨最小化和最小瞬时代价的根号反比关系,本文提出了一种不依赖于最小代价的算法,并展示了任何学习算法在最坏情况下都要有至少 Omega(Bstar 根号乘以 S、A、K 的数量)的悔恨。