Jun, 2019

重要性重采样用于非同策略预测

TL;DR研究了用重要性重采样代替再赋权提高强化学习中离线预测的性能,减小了更新权重值函数的方差,并在多个案例中探究了其有关权的偏差和一致性。