Jun, 2022

线性函数逼近下的最小最大优化强化学习

TL;DR研究使用线性函数近似的强化学习,其中转移概率和奖励函数是关于特征映射phi(s,a)的线性函数。提出了新的计算高效算法LSVI-UCB+,其在Bernstein类型的探索奖励的帮助下,具有常数估计的L2误差,并且特别适用于情节不同整体线性马尔可夫决策过程,证明了LSVI-UCB+的统计结果并且在理论上是最优秀的。