Oct, 2023

基于后验采样的时态POMDP学习算法的遗憾分析

TL;DR本文研究了具有未知转移和观测模型的POMDPs中的情节性学习问题,并证明了其贝叶斯后悔的规模与剧集数的平方根成正比。