Jan, 2021
基于方差的线性赌博机和线性混合MDP置信区间的改进
Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP
TL;DR本文提出了一种新的方差感知置信集,用于线性 bandits 和线性混合马尔可夫决策过程(MDPs)中,我们得到了与方差和维度相关,但不显式依赖于循环次数 k 的后悔上限,并获得了史上首个仅在强化学习中呈对数比例的后悔上限,这三种技术思想可能是独立感兴趣的应用。