IJCAIApr, 2024

超参数优化在离策略学习中甚至可能是有害的及其应对方法

TL;DR基于偏置记录数据准确估计反事实政策效果的评估在许多情况下不仅用于评估决策政策的价值,还用于搜索大候选空间中的最佳超参数。本研究探讨了离策略学习中的超参数优化任务,并提出了简单而高效的校正方法来解决相关问题。实证调查证明了我们提出的超参数优化算法在典型流程严重失败的情况下的有效性。