BriefGPT.xyz
Jun, 2020
平均奖励马尔科夫决策过程的学习和规划
Learning and Planning in Average-Reward Markov Decision Processes
HTML
PDF
Yi Wan, Abhishek Naik, Richard S. Sutton
TL;DR
本研究提出了一种基于平均报酬MDPs的学习和规划算法,其中包括第一种无参考状态的普遍证明收敛的无模型控制算法、第一个证明收敛的无政策自由预测算法,以及第一个离线学习算法,其收敛于实际值函数而不是值函数增加一个偏移量。在使用时间差错错误而不是常规错误更新平均报酬估计时,我们的所有算法都基于此。
Abstract
We introduce improved learning and planning algorithms for
average-reward mdps
, including 1) the first general proven-convergent off-policy
model-free control
algorithm without reference states, 2) the first prov
→