Oct, 2024

强化学习的双重最优策略评估

TL;DR本文针对强化学习中策略评估的高方差问题进行研究,提出了一种数据收集策略与数据处理基线的最优组合。我们理论上证明了该双重最优策略评估方法是无偏的,并且方差低于现有最佳方法,实验证明该方法显著降低了方差并提升了实证性能。