Jul, 2018

非通信马尔可夫决策过程中的近最优探索利用

TL;DR该论文介绍了一种新算法TUCRL,它能够在任何有限马尔可夫决策过程(MDP)中进行高效的勘探和利用,而不需要任何形式的先前知识。该算法不同于乐观算法和正则算法,以及后验抽样或分段算法在弱通信MDP中的低效表现。最后,数值模拟支持了该论文的理论发现,并显示了TUCRL如何克服现有技术的限制。