Dec, 2023

TD (0) 函数逼近的集中界

TL;DR我们得到了一种关于使用线性函数逼近进行 TD (0) 的集中界限。我们通过从底层马尔科夫链的单个样本路径中获取样本来处理在线 TD 学习,这使得我们的分析与离线 TD 学习或使用来自马尔科夫链的稳态分布的独立样本进行 TD 学习的情况显着不同。我们将 TD (0) 视为一种具有收敛性的随机逼近算法,其中同时存在鞅和马尔科夫噪声。使用泊松方程处理马尔科夫噪声,而使用松弛的集中不等式概念处理迭代的有界性的几乎确定性保证的缺失。