强化学习的本质高效、稳定和有界离线策略评估

Jun, 2019

强化学习的本质高效、稳定和有界离线策略评估

Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning

Nathan Kallus, Masatoshi Uehara

TL;DR本文提出了一种基于经验似然的 OPE 估算器，相对于重要性抽样、自归一化重要性抽样和双重稳健估计具有更高的效率，并满足自归一化重要性抽样的稳定性和有界性。

Abstract

off-policy evaluation (OPE) in both contextual bandits and reinforcement learning allows one to evaluate novel decision policies without needing to conduct exploration, which is often costly or otherwise infeasib

off-policy evaluation importance sampling doubly robust estimates empirical likelihood decision policies

发现论文，激发创造

更加健壮的双重偏差离线评估

本文针对强化学习中的离策略评估问题，提出了一种名为 MRDR 的更加鲁棒的 Doubly Robust 估计方法，该方法通过最小化 DR 估计器的方差来学习模型参数，并在上下文决策和强化学习基准问题中进行评估，证明了其强一致性和渐进最优性。

Feb, 2018

基于边际化重要性采样的强化学习最优离线评估

本研究提出了一种基于较小方差的边缘重要性抽样 (MIS) 的算法，用以解决 RL 中 long horizon MDP 的 Off-policy evaluation (OPE) 问题，并表现出在多个环境中的良好表现。

Jun, 2019

半离线策略评估的反事实增强重要性采样

在高风险领域应用强化学习中，使用观察数据进行定量和定性评估可以帮助从业者了解新策略的泛化性能。然而，这种离线数据评估受到困限，因为离线数据可能无法反映由新策略应用导致的分布偏移。本研究中，我们提出了一种半离线评估框架，作为离线和在线评估之间的中间步骤，其中人工用户提供未观察到的反事实轨迹的注释。我们设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器，其能够纳入反事实注释而不引入额外偏差。通过理论分析，我们展示了该方法在减少偏差和方差方面相对于标准重要性采样估计器的潜在优势。在一系列概念验证实验中，涉及赌博机和医疗模拟器，我们证明了我们的方法优于纯离线重要性采样估计器，并且对于不完美的注释具有鲁棒性。结合人性化的注释收集策略，我们的框架可以实现强化学习在高风险领域的应用。

Oct, 2023

离线策略评估方法（Off-Policy Evaluation）基于离线策略分类（Off-Policy Classification）

本文旨在解决深度强化学习领域中的模型选择问题，并提出一种基于 Q 函数作为决策函数的正无标记（PU）分类问题的度量方法来评估离线策略评估的性能，该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程，并且在一些任务上表现优于基线算法。

Jun, 2019

Off-policy Evaluation 的非渐进置信区间：原始和对偶界限

本文提出一种基于原始 - 对偶优化的算法，用于构建非渐进置信区间，该算法利用了 Feng 等人（2019 年）的核贝尔曼损失（KBL）和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式，明确展示了算法的优势。

Mar, 2021

马尔科夫决策过程中的双重强化学习，用于高效的离线策略评估

这篇论文讲述了在马尔科夫决策过程中 (off-policy evaluation) 基于无记忆存储的状态、行动和奖励的情况下，使用交叉折叠法来计算 $q$-functions 和边际密度比率的双重强化学习 (DRL) 的有效性研究。研究表明，在第四次方根率下估算两个因素时，DRL 具有高效性，并且当仅一个因素一致时也具有双重正确性。

Aug, 2019

通过优化概括方法评估推荐策略的离策略算法

我们开发了一种用于预测多维动作的选择问题中离线策略评估的新方法，称为潜在 IPS（LIPS），它通过在低维抽象空间中优化抽象来最小化 LIPS 的偏差和方差，从而显著减小 IPS 的方差并避免对奖励函数结构进行过多的限制性假设，通过实证评估，我们证明 LIPS 在非线性奖励和大型抽象空间的场景中明显优于现有的评估方法。

Feb, 2024

基于级联行为模型的排序策略双重稳健离线评估

提出了一种新的基于级联假设的有偏差 - 无方差权衡评估器来评估推荐系统中的排名策略，在综合合成和真实数据实验中优于现有评估器。

Feb, 2022

从重要性采样到双重稳健策略梯度

通过重要性抽样的估计器取有限差分式，得出了基于策略梯度的有限差分及其方差的算法，提供了一种非常通用而灵活的双重稳健策略梯度估计器，并分析了其方差、与现有估计器的比较及其效果。

Oct, 2019

在情境强化学习中进行的离线策略评估的边际密度比

在本文中，我们介绍了一种新的基于边际比率的 Off-Policy Evaluation (OPE) 估计器，用于 contextual bandits，旨在通过关注结果边际分布的变化来减少方差。我们通过严格的理论分析证明了 MR 估计器相对于传统方法（如 IPW 和 DR）在方差减小方面的优势。此外，我们还验证了 MR 估计器与最先进的 Marginalized Inverse Propensity Score (MIPS) 估计器之间的联系，并证明 MR 在广义 MIPS 估计器家族中具有更低的方差。我们的实验结果在合成数据集和真实世界数据集上验证了我们的理论发现，并突出了 MR 估计器在 contextual bandits 的 OPE 中的实际优势，特别是在因果推断设置中对于估计平均处理效应方面的性能提升。

Dec, 2023