Aug, 2024

强化学习中的高效多策略评估

TL;DR本研究解决了传统强化学习中针对多个目标策略的低效评估问题。通过设计特定的行为策略来减少所有目标策略估计量的方差,理论证明该方法在样本数量显著减少的情况下优于现有的在线评估方法。实验证明,该估计器在多个环境中具有更低的方差并实现了最先进的性能。