Oct, 2023
无模型的后验采样通过学习率随机化
Model-free Posterior Sampling via Learning Rate Randomization
Daniil Tiapkin, Denis Belomestny, Daniele Calandriello, Eric Moulines, Remi Munos...
TL;DR介绍了一种名为随机化 Q 学习(RandQL)的新型基于后验抽样的模型无关算法,用于减小判断失误在分节马尔可夫决策过程(MDPs)中的影响,分析了它在标表和非标表度量空间设置下的性能,表明其乐观探索方法优于现有的方法。