Jan, 2021

基于方差的线性赌博机和线性混合MDP置信区间的改进

TL;DR本文提出了一种新的方差感知置信集,用于线性 bandits 和线性混合马尔可夫决策过程(MDPs)中,我们得到了与方差和维度相关,但不显式依赖于循环次数 k 的后悔上限,并获得了史上首个仅在强化学习中呈对数比例的后悔上限,这三种技术思想可能是独立感兴趣的应用。