Feb, 2019

基于线性函数逼近的SARSA有限样本分析

TL;DR本文研究了在非独立同分布数据下具有线性函数逼近的 SARSA 算法,并开发了一种新的技术来显式表征随着时间变化的马尔科夫转移核的一类随机逼近过程的随机偏差,从而提供了基于有限样本的 SARSA 算法的均方误差有限样本分析以及配适的 SARSA 算法,后者包括原始 SARSA 算法及其变体,提供了比逐步更新策略迭代更高效的泛化框架。