Nov, 2021

改进方差自适应线性赌博机和无时序线性混合马尔可夫决策过程的遗憾分析

TL;DR本篇论文研究在线学习中的方差自适应算法,提出了适用于线性赌臂机以及线性混合马尔可夫决策过程的遗憾界分析,该方法在未知方差的情况下,能够实现 Regret 的拟多项式算法复杂度降低。