Feb, 2024

利用贝尔曼残差最小化进行分布式离策略评估

TL;DR我们研究了分布式离策略评估的问题,提出了一种基于期望扩展统计距离的方法来估计回报分布,并介绍了一种名为Energy Bellman Residual Minimizer的方法。我们在对可实现性的假设下建立了EBRM估计器的有限样本误差界,并通过模拟实验和与其他方法的比较验证了我们方法的优越性。