Oct, 2023

无模型的后验采样通过学习率随机化

TL;DR介绍了一种名为随机化 Q 学习(RandQL)的新型基于后验抽样的模型无关算法,用于减小判断失误在分节马尔可夫决策过程(MDPs)中的影响,分析了它在标表和非标表度量空间设置下的性能,表明其乐观探索方法优于现有的方法。