Jul, 2022

使用贝叶斯方法学习马尔可夫决策过程中的 Bandit 结构

TL;DR研究了强化学习中决策问题的环境类型不确定性问题,提出了一种基于贝叶斯假设检验方法的在线算法,可以在上下文探索和马尔科夫过程决策算法之间互相转换来适应环境类型,以避免不合适的环境假设引起的低效问题。