Feb, 2020

通过行为持久性在批强化学习中控制频率自适应

TL;DR本文介绍了一种基于动作重复的新算法 PFQI,旨在增强强化学习算法的性能,在理论上和实验中得到验证。