Apr, 2023

深度强化学习的后验抽样

TL;DR本文介绍了一种名为 PSDRL 的算法,它是第一个真正可扩展的近似后验采样强化学习算法,它结合了基于值函数近似的连续计划算法和对潜在状态空间模型的高效不确定性量化,经过在 Atari 基准测试上进行广泛实验,PSDRL 在样本效率和计算效率上显著优于以前的尝试并在与基于模型的强化学习方法相比具备竞争力。