May, 2023

使用线性函数逼近进行策略评估的高概率样本复杂度

TL;DR本文主要针对利用线性函数逼似模型来评估折扣无限领域 MDP 中的策略的问题,研究两种广泛使用的政策评估算法(TD 和 TDC)最佳线性系数的预估误差所需的样本复杂度,提出了一个高可靠性收敛保证的样本复杂度上界,并且在策略内和策略外设置中都达到了最优容差级别依赖,同时,通过显示与问题相关的量,表明在策略内设置中,我们的上界与关键问题参数的 Minimax 下界相匹配,包括特征映射的选择和问题维数。