通用动作空间中的平衡离线评估
提出一种基于边际化重要性权重的新 Off-Policy Evaluation(OPE)估算器,旨在解决现有 OPE 估算器在动作数量很大时出现的极端偏差和方差问题,能够为许多应用程序,从推荐系统到语言模型中提供可靠的 OPE,并分析了行动嵌入在传统估计量之上提供统计收益的条件。
Feb, 2022
本文提出一个新的变分框架,将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题,通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明,我们的方法在不同环境下都能产生紧密的置信区间。
Aug, 2020
提出了一个基于重要性权重收缩的新框架,用于设计背景依赖赌博机的估算器,得到了三个估算器,包括一个新的收缩估算器和第一个用于组合行动集的收缩估算器,并在基准问题中进行了广泛的实验,表明该估算器高度适应性,并且通常优于现有的方法。
Jul, 2019
我们在具有大动作空间的情境赌博设置中研究了离策略评估 (Off-Policy Evaluation,OPE)。基准估计器在严重的偏差和方差权衡中遇到困难。为了克服这些限制,我们提出了基于动作嵌入 (MIPS) 的边际化逆向倾向评分 (Marginalized Inverse Propensity Scoring, MIPS) 来减少估计器的方差。为了使估计器更准确,我们提出了 MIPS 的双重稳健估计器 (Marginalized Doubly Robust, MDR)。理论分析表明,所提出的估计器在比 MIPS 更弱的假设下是无偏的,同时保持对 IPS 的方差减少,这是 MIPS 的主要优势。经验实验证实了 MDR 对现有估计器的卓越性。
Aug, 2023
本文旨在解决深度强化学习领域中的模型选择问题,并提出一种基于 Q 函数作为决策函数的正无标记(PU)分类问题的度量方法来评估离线策略评估的性能,该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程,并且在一些任务上表现优于基线算法。
Jun, 2019
在本文中,我们介绍了一种新的基于边际比率的 Off-Policy Evaluation (OPE) 估计器,用于 contextual bandits,旨在通过关注结果边际分布的变化来减少方差。我们通过严格的理论分析证明了 MR 估计器相对于传统方法(如 IPW 和 DR)在方差减小方面的优势。此外,我们还验证了 MR 估计器与最先进的 Marginalized Inverse Propensity Score (MIPS) 估计器之间的联系,并证明 MR 在广义 MIPS 估计器家族中具有更低的方差。我们的实验结果在合成数据集和真实世界数据集上验证了我们的理论发现,并突出了 MR 估计器在 contextual bandits 的 OPE 中的实际优势,特别是在因果推断设置中对于估计平均处理效应方面的性能提升。
Dec, 2023
我们开发了一种用于预测多维动作的选择问题中离线策略评估的新方法,称为潜在 IPS(LIPS),它通过在低维抽象空间中优化抽象来最小化 LIPS 的偏差和方差,从而显著减小 IPS 的方差并避免对奖励函数结构进行过多的限制性假设,通过实证评估,我们证明 LIPS 在非线性奖励和大型抽象空间的场景中明显优于现有的评估方法。
Feb, 2024
本文提出了新的估计器 OffCEM,它基于连带效应模型(CEM),通过将重要性加权仅应用于动作池,通过基于模型的奖励估计解决了残余因果效应的问题。实验表明 OffCEM 估计器在 OPE 中具有显著的提升。
May, 2023
本研究关注强化学习中的离线策略评估问题,提出了一种基于因果推理的 MDP 模型有限样本泛化误差上界算法,解决了策略价值和平均策略价值估计的问题,并在常见合成基准和 HIV 治疗仿真中获得了较低 MSE 的结果。
May, 2018