ICMLJan, 2023

强化学习中尖锐的方差相关界限:随机与确定性环境中的最佳选择

TL;DR研究马尔可夫决策过程中方差相关的遗憾界限,提出两个新的环境范数并设计了 MVP 算法和参考函数算法进行模型建模和模型自由算法,得到方差相关界限的上界和下界。