上下文臂带中的离线风险评估
在具有上下文情境和目标函数的决策环境中,我们使用双重稳健技术评估新策略,并证明这种方法使价值估计具有较低的方差,且能达到更好的策略,为该领域提供一种有效的方法。
Mar, 2011
论文研究了在环境中收益只有部分观测可用的情况下如何进行顺序决策,提出了双重稳健估计技术用于政策评估和优化,证明了该方法在具有良好收益模型或过去政策模型的情况下都能产生准确的价值估计。
Mar, 2015
研究了强化学习中 off-policy value evaluation 的问题,提出了一种将 doubly robust estimator 用于序列决策问题的方法,可以保证无偏差并且方差较低,在多个基准问题中都具有较高的准确度,并且可以作为安全策略改进的子程序。
Nov, 2015
本研究旨在研究在没有相应奖励模型的情况下,通过使用由另一政策收集的数据来估算目标政策的价值的,上下文Bandit模型下的离线政策评估问题。所提出的 SWITCH estimator 可以使用现有的(不一定一致的)奖励模型来实现更好的偏差-方差平衡,从而在多个数据集上实现更好的表现。
Dec, 2016
提出了平衡离线策略评估(B-OPE)的通用方法,通过将估计权重的风险最小化,减小了平衡不匹配的问题,其二分类解决方案可适用于所有操作类型,并且易于超参数调整,实验证明其在离线策略评估中得到应用。
Jun, 2019
提出了一个基于重要性权重收缩的新框架,用于设计背景依赖赌博机的估算器,得到了三个估算器,包括一个新的收缩估算器和第一个用于组合行动集的收缩估算器,并在基准问题中进行了广泛的实验,表明该估算器高度适应性,并且通常优于现有的方法。
Jul, 2019
本研究探讨了在强化学习中应用基于模型的方法改进off-policy risk的估计,构建了第一个适用于MDPs的双重稳健估计器,提高了估计精度并实现了Cramer-Rao方差下界。
Sep, 2022
研究离线情境下的由于未观测某些条件变量和数据缺失而引起的偏差和低效问题,提出了一种名为CAP的新算法,在数据的基础上形成奖励函数、建立置信区间,并通过悲观主义的方式贪心地采取行动来学习最优策略。
Mar, 2023
在本文中,我们介绍了一种新的基于边际比率的 Off-Policy Evaluation (OPE) 估计器,用于 contextual bandits,旨在通过关注结果边际分布的变化来减少方差。我们通过严格的理论分析证明了 MR 估计器相对于传统方法(如 IPW 和 DR)在方差减小方面的优势。此外,我们还验证了 MR 估计器与最先进的 Marginalized Inverse Propensity Score (MIPS) 估计器之间的联系,并证明 MR 在广义 MIPS 估计器家族中具有更低的方差。我们的实验结果在合成数据集和真实世界数据集上验证了我们的理论发现,并突出了 MR 估计器在 contextual bandits 的 OPE 中的实际优势,特别是在因果推断设置中对于估计平均处理效应方面的性能提升。
Dec, 2023
该研究调查了在线情境决策问题的离线公式化,其目标是利用在行为策略下收集的过往互动来评估、选择和学习新的、潜在更好性能的策略。通过采用悲观主义的原则构建对策略最坏情况性能的上限界,我们超越了点估计器,引入了对一类广泛的重要性加权风险估计器的新颖、完全经验的集中界。这些界足够一般,覆盖了大多数现有的估计器,并为新估计器的开发铺平了道路。特别地,在类别中寻求最紧密的界的追求激发了一种新的估计器(LS),该估计器对大的重要性权重进行对数平滑。LS的界证明比所有竞争者都紧,自然而然地导致改进的策略选择和学习策略。广泛的策略评估、选择和学习实验证明了LS的多样性和有利性能。
May, 2024