Dec, 2023

基于均值嵌入的分布式贝尔曼算子

TL;DR我们提出了一个新颖的算法框架来进行分布式强化学习,基于学习回报分布的有限维均值嵌入。我们基于此框架推导出了几个新的动态规划和时间差分学习算法,提供了渐近收敛理论,并对算法在一套表格任务上的实证性能进行了研究。此外,我们展示了这种方法可以与深度强化学习简单地结合,获得一个在 Arcade Learning Environment 上改进了基线分布式方法的新的深度强化学习代理。