Apr, 2023

非平稳马尔可夫决策过程的重启贝叶斯在线变点检测

TL;DR研究使用贝叶斯在线变点检测算法对使用多项式分布的马尔可夫决策过程进行非定常强化学习,提出了改进的 UCRL2 算法