Jul, 2023

错误配置条件下的最优近似因子在离策略价值函数估计中

TL;DR线性离策略值函数估计中的近似因子的优化形式尚不明确,本研究通过研究加权L2范数、L∞范数、有无状态别名和状态空间完全性等设置,在所有这些设置上确定了渐近最优的近似因子(除了常数因子),特别是我们的界限确定了L2(μ)范数的两个实例相关因子和L∞范数的一个实例相关因子,从而推断出了在错误规定下离策略评估难度的因素。