ICMLJun, 2020

强化学习中的可行性原理理论

TL;DR本文提出了一种基于 Markov Decision Processes 的行动效益理论,它能够加速计划过程,同时提高学习效率和准确性,特别是在需要函数逼近的模型中。文中还介绍了一种学习行动效益的方法,并将其用于估计更简单且泛化能力更强的状态转移模型。