关键词inverse propensity score estimator
搜索结果 - 3
- 不确定性感知的离线学习
本研究通过显式建模不确定性,并提出一种不确定性感知的倾向得分估计器(UIPS),可改进离线策略优化,实验结果表明其比现有方法更具有样本效益。
- 神经网络半反事实风险最小化
提出了基于反事实风险最小化和反向倾向得分估计器的方法以最小化风险,尝试解决某些样本的奖励反馈缺失的问题,并针对该问题提出了正则化的反事实风险最小化算法和基于生成伪奖励的算法。
- KDD使用多个记录器生成的日志赌器反馈进行有效评估
本文研究了如何利用历史数据来预测目标策略的性能,并提出了两种替代方法,相比于传统方法,能够更准确地评估交互式系统的新政策。