ICMLFeb, 2019

使用线性可加特征的参数 Q 学习的样本最优解

TL;DR该研究提出一种基于特征维度的参数 Q 学习算法,通过使用方差约减、单调性保持和置信区间等技术提高了其样本效率,并证明了该算法在任意初始状态下可以以高概率找到一个 ε- 最优的策略,适用于大规模的马尔可夫决策过程。