Oct, 2023

改进的贝叶斯后悔边界在强化学习中的应用

TL;DR本研究证明了在多种环境设置下,Thompson 采样在强化学习中的贝叶斯后悔限与性能上界,通过使用一组离散的替代环境简化学习问题,并使用后验一致性对信息比例进行了精细分析,从而导出了时间不均匀强化学习问题中的上界,其中 $H$ 是回合长度,$d_{l_1}$ 是环境空间的 Kolmogorov $l_1$ 维度。接着,我们在各种设置中找到了 $d_{l_1}$ 的具体限制,并讨论了我们的结果是首次出现还是改进了现有技术。