BriefGPT.xyz
Ask
alpha
关键词
logging policy
搜索结果 - 2
估计记录策略的双重稳健离线策略评估
该研究介绍了一种新的双鲁棒离策评估(OPE)估计器,用于未知的日志策略和价值函数情况下,能估计产生半参数下界的最小渐近方差。
PDF
3 months ago
不确定性感知的离线学习
本研究通过显式建模不确定性,并提出一种不确定性感知的倾向得分估计器(UIPS),可改进离线策略优化,实验结果表明其比现有方法更具有样本效益。
PDF
a year ago
Prev
Next