Jul, 2020

使用线性函数逼近学习无限时间平均回报马尔可夫决策过程

TL;DR开发多种学习用于 Markov Decision Processes 的无限时间平均奖励设置和线性函数逼近的算法,使用乐观原则和假设 MDP 具有线性结构,提出具有优化的计算效率的算法,并展开了详细的分析,改进了现有最佳结果。