Jul, 2023

并行Q学习:在大规模并行仿真下扩展离策略强化学习

TL;DR本研究介绍了一种并行的Q学习方案(PQL),通过并行化数据收集、策略学习和值学习,在墙钟训练时间上优于PPO算法,并保持了离策略学习的高样本效率。