Jun, 2019

通用动作空间中的平衡离线评估

TL;DR提出了平衡离线策略评估(B-OPE)的通用方法,通过将估计权重的风险最小化,减小了平衡不匹配的问题,其二分类解决方案可适用于所有操作类型,并且易于超参数调整,实验证明其在离线策略评估中得到应用。