Feb, 2016

基于丰富观测的 PAC 强化学习

TL;DR本研究提出一种新的强化学习模型,将上下文逐步演化到顺序决策制定,通过分析最小二乘值淘汰算法表明,在某些特定情形,强化学习方法的范数较优行为可以在多项式时间内学习。