Jun, 2023

计数无限状态空间马尔可夫决策过程的贝叶斯学习最优策略

TL;DR该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题,在未知参数和固定先验分布的情况下,能够稳定地获得近似最优解,适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。