BriefGPT.xyz
Apr, 2023
深度强化学习的后验抽样
Posterior Sampling for Deep Reinforcement Learning
HTML
PDF
Remo Sasso, Michelangelo Conserva, Paulo Rauber
TL;DR
本文介绍了一种名为PSDRL的算法,它是第一个真正可扩展的近似后验采样强化学习算法,它结合了基于值函数近似的连续计划算法和对潜在状态空间模型的高效不确定性量化,经过在Atari基准测试上进行广泛实验,PSDRL在样本效率和计算效率上显著优于以前的尝试并在与基于模型的强化学习方法相比具备竞争力。
Abstract
Despite remarkable successes,
deep reinforcement learning
algorithms remain sample inefficient: they require an enormous amount of trial and error to find good policies.
model-based algorithms
promise
→