Nov, 2019

可识别 MDP 赌博结构的问题相关性强化学习界限

TL;DR本文研究通过强化学习算法让智能体在不确定性情况下进行最优决策。作者比较了常见的上下文决策框架和马尔可夫决策过程,并发现使用近期提出的针对马尔可夫决策过程的强化学习算法会在使用上下文决策框架的情况下获得最佳的表现。