Apr, 2023

折扣强化学习中的采样与估计故事

TL;DR本文围绕折扣强化学习中下降估算最常见的问题,提出了关于估算误差与马尔科夫过程和折扣因子的混合特性的极小极大下界,然后对一组显著的估算器和相应的采样程序进行了统计分析,并表明直接从马尔科夫过程折扣核中进行抽样估计平均值,相对于传统估算器具有更优异的统计特性。