Nov, 2017

具有连续侧信息的马尔可夫决策过程

TL;DR本文提出了一种基于上下文的马尔可夫决策过程增强学习算法,用于医疗保健中的治疗决策。算法基于平滑性假设进行学习,并给出了 PAC 边界。在上下文可线性组合的情况下,基于 KWIK 学习技术,我们提供了一个 PAC 学习算法。