May, 2021

高效探索的非降分位函数网络在分布式强化学习中的应用

TL;DR本文主要介绍了关于分布式强化学习 (DRL) 中,如何保证量化函数的有效性和高效利用分布信息的两个问题。在此基础上,提出了非降量化函数网络 (NDQFN) 保证得到的量化估计的单调性,并设计了一种名为分布预测误差 (DPE) 的通用探索框架,利用该框架整个量化函数的分布。通过对 Atari 2600 Games 等一些难度较大的游戏进行性能分析和对比,论证了所提方法的理论必要性和实际性能提高。