Mar, 2024

分布式时间差分的统计效率

TL;DR本文研究分布增强学习中的分布策略评估问题,并提出了非参数分布时序差分算法 (NTD) 来分析其有限样本性能,通过理论分析得出了 NTD 算法的迭代次数和估计误差之间的关系,同时也证明了 Categorical Temporal Difference Algorithm (CTD) 在 $p$-Wasserstein 距离下具有非渐近收敛性。