高置信度离线（或反事实）方差估计

AAAIJan, 2021

高置信度离线（或反事实）方差估计

High-Confidence Off-Policy (or Counterfactual) Variance Estimation

Yash Chandak, Shiv Shankar, Philip S. Thomas

TL;DR本文研究了在先前政策数据的基础上提出新政策的高置信度保障及其在高风险应用中同样重要的回报方差的高置信度保障的离线估计和界定问题。

Abstract

Many sequential decision-making systems leverage data collected using prior policies to propose a new policy. For critical applications, it is important that →

sequential decision-making off-policy estimation variance of returns high-confidence guarantees critical applications

发现论文，激发创造

方差惩罚的在线与离线行为者 - 评论家算法

本研究提出了基于策略梯度方法的强化学习算法，通过对回报的方差进行惩罚，保证了算法的效果可靠，并在标准测试环境下展示了相应结果。

Feb, 2021

无限时域离策略估计中的双重稳健偏差降低

本文提出了一种基于学习价值函数的无偏增强方法，可用于减小通常重要性采样 (IS) 估计器的方差，消除因密度比估计误差引入的潜在高偏差，并证明其具有双倍的稳健性。

Oct, 2019

强化学习的双重稳健性离线价值评估

研究了强化学习中 off-policy value evaluation 的问题，提出了一种将 doubly robust estimator 用于序列决策问题的方法，可以保证无偏差并且方差较低，在多个基准问题中都具有较高的准确度，并且可以作为安全策略改进的子程序。

Nov, 2015

无限时间序列强化学习中具有混淆鲁棒性的策略评估

通过数据策略辅助下的敏感性模型，我们开发了一种强健的方法，针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量，估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明，随着我们收集更多混淆数据，我们能够收敛于尖锐的边界。虽然检查集合成员身份是一个线性规划，但支持功能是由一个困难的非凸优化问题给出的。我们基于非凸投影梯度下降方法开发了一些近似，并在实证中演示了所得到的边界。

Feb, 2020

交叉验证的离策略评估

本文研究了离策略评估中的估计器选择和超参数调优问题，并展示了如何使用交叉验证来解决这一问题，从而验证了交叉验证在离策略评估中是可行的。

May, 2024

离线策略评估中的统计自举法用于不确定性估计

本文研究了使用统计自助法来校准有偏策略价值估计结果得到置信区间的潜力，并提出了适用于实际情况的机制以减轻其影响。结果显示该方法在各种条件下能够产生准确的置信区间。

Jul, 2020

决策策略在混淆下的预测性能比较

我们提出了一种方法来比较决策策略的预测性能，该方法结合了因果推断和离线评估文献中的现代识别方法，并使用我们的框架在真实世界的医疗保险注册政策的预部署评估中进行了应用。

Apr, 2024

基于 Bandit 反馈的高效反事实学习

本文考虑利用离线估计器从上下文 bandit 算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式，我们的估计器在广告设计方面得到了应用，证明了我们对标准估计器的方差降低是有效的。

Sep, 2018

超越回报：基于用户指定的误差测量分布的离线策略评估

本文提供了在可行性前提下，通过在 MIS 目标上施加适当的规范化对离线策略函数估计提供保证，并提供了优化对偶解的确切特征化方法，该解决方案需要由鉴别器类实现，这决定了在值函数学习的情况下数据覆盖假设。

Oct, 2022

针对离线策略上下文主动学习任务的最佳基线修正

将离线学习范式应用于推荐系统和排名应用，提出一个统一的框架，采用等效的均衡基准修正方法来减少估计方差，从而得到方差最优的无偏估计器。

May, 2024