Jun, 2024

基于近似采样的强化学习更高效的随机探索

TL;DR这篇论文提出了一个算法框架,结合了不同的近似抽样方法和最近提出的 Feel-Good Thompson Sampling (FGTS) 方法,在线性 MDPs 中应用时,我们的遗憾分析得到了关于维度的最好依赖关系,超过了现有的随机算法。在一些需要进行深度探索的任务中,我们提出的将 FGTS 和近似抽样相结合的算法与其他强基准相比表现显著地更好。在 Atari 57 套件的几个具有挑战性的游戏中,我们的算法在性能上要么优于,要么与深度 RL 文献中的其他强基准相当。