Dec, 2020

线性混合Markov决策过程的近最小极小化强化学习

TL;DR本文研究了具有线性函数逼近的增强学习,其中马尔科夫决策过程(MDP)的潜在转移概率核心为线性混合模型,并且学习代理具有单个基础核函数的积分或采样神谕的访问。 基于我们提出的新的Bernstein型自归一类化不等式,我们提出了一种名为$ ext{UCRL-VTR}^{+}$的新的计算有效算法,以进行具有线性函数逼近的线性混合MDPs的无折扣情况。 我们还提出了新的算法$ ext{UCLK}^{+}$,适用于同一类MDP的折扣情况,这两种算法分别在最小化最大性上达到了近乎最小值,是线性函数逼近RL的第一篇计算有效性,近乎最小值的论文。