Oct, 2020

使用线性函数逼近的非平稳强化学习

TL;DR这篇研究采用线性函数逼近的方法来应用强化学习在马尔科夫决策过程中,通过衡量合适的指标来保证奖励和状态转移函数变化的幅度不超过一定的上限,提出了两种最优算法:LSVI-UCB-Restart 和 Ada-LSVI-UCB-Restart。该研究还为非平稳 MDP 和线性 MDP 提供了动态遗憾分析的理论支持,并进行了有效性验证。