高置信度离线(或反事实)方差估计
本文提出了一种基于学习价值函数的无偏增强方法,可用于减小通常重要性采样 (IS) 估计器的方差,消除因密度比估计误差引入的潜在高偏差,并证明其具有双倍的稳健性。
Oct, 2019
研究了强化学习中 off-policy value evaluation 的问题,提出了一种将 doubly robust estimator 用于序列决策问题的方法,可以保证无偏差并且方差较低,在多个基准问题中都具有较高的准确度,并且可以作为安全策略改进的子程序。
Nov, 2015
通过数据策略辅助下的敏感性模型,我们开发了一种强健的方法,针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量,估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明,随着我们收集更多混淆数据,我们能够收敛于尖锐的边界。虽然检查集合成员身份是一个线性规划,但支持功能是由一个困难的非凸优化问题给出的。我们基于非凸投影梯度下降方法开发了一些近似,并在实证中演示了所得到的边界。
Feb, 2020
本文研究了使用统计自助法来校准有偏策略价值估计结果得到置信区间的潜力,并提出了适用于实际情况的机制以减轻其影响。结果显示该方法在各种条件下能够产生准确的置信区间。
Jul, 2020
我们提出了一种方法来比较决策策略的预测性能,该方法结合了因果推断和离线评估文献中的现代识别方法,并使用我们的框架在真实世界的医疗保险注册政策的预部署评估中进行了应用。
Apr, 2024
本文考虑利用离线估计器从上下文 bandit 算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式,我们的估计器在广告设计方面得到了应用,证明了我们对标准估计器的方差降低是有效的。
Sep, 2018
本文提供了在可行性前提下,通过在 MIS 目标上施加适当的规范化对离线策略函数估计提供保证,并提供了优化对偶解的确切特征化方法,该解决方案需要由鉴别器类实现,这决定了在值函数学习的情况下数据覆盖假设。
Oct, 2022