强化学习的本质高效、稳定和有界离线策略评估
本文针对强化学习中的离策略评估问题,提出了一种名为 MRDR 的更加鲁棒的 Doubly Robust 估计方法,该方法通过最小化 DR 估计器的方差来学习模型参数,并在上下文决策和强化学习基准问题中进行评估,证明了其强一致性和渐进最优性。
Feb, 2018
本研究提出了一种基于较小方差的边缘重要性抽样 (MIS) 的算法,用以解决 RL 中 long horizon MDP 的 Off-policy evaluation (OPE) 问题,并表现出在多个环境中的良好表现。
Jun, 2019
在高风险领域应用强化学习中,使用观察数据进行定量和定性评估可以帮助从业者了解新策略的泛化性能。然而,这种离线数据评估受到困限,因为离线数据可能无法反映由新策略应用导致的分布偏移。本研究中,我们提出了一种半离线评估框架,作为离线和在线评估之间的中间步骤,其中人工用户提供未观察到的反事实轨迹的注释。我们设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器,其能够纳入反事实注释而不引入额外偏差。通过理论分析,我们展示了该方法在减少偏差和方差方面相对于标准重要性采样估计器的潜在优势。在一系列概念验证实验中,涉及赌博机和医疗模拟器,我们证明了我们的方法优于纯离线重要性采样估计器,并且对于不完美的注释具有鲁棒性。结合人性化的注释收集策略,我们的框架可以实现强化学习在高风险领域的应用。
Oct, 2023
本文旨在解决深度强化学习领域中的模型选择问题,并提出一种基于 Q 函数作为决策函数的正无标记(PU)分类问题的度量方法来评估离线策略评估的性能,该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程,并且在一些任务上表现优于基线算法。
Jun, 2019
本文提出一种基于原始 - 对偶优化的算法,用于构建非渐进置信区间,该算法利用了 Feng 等人(2019 年)的核贝尔曼损失(KBL)和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式,明确展示了算法的优势。
Mar, 2021
这篇论文讲述了在马尔科夫决策过程中 (off-policy evaluation) 基于无记忆存储的状态、行动和奖励的情况下,使用交叉折叠法来计算 $q$-functions 和边际密度比率的双重强化学习 (DRL) 的有效性研究。研究表明,在第四次方根率下估算两个因素时,DRL 具有高效性,并且当仅一个因素一致时也具有双重正确性。
Aug, 2019
我们开发了一种用于预测多维动作的选择问题中离线策略评估的新方法,称为潜在 IPS(LIPS),它通过在低维抽象空间中优化抽象来最小化 LIPS 的偏差和方差,从而显著减小 IPS 的方差并避免对奖励函数结构进行过多的限制性假设,通过实证评估,我们证明 LIPS 在非线性奖励和大型抽象空间的场景中明显优于现有的评估方法。
Feb, 2024
通过重要性抽样的估计器取有限差分式,得出了基于策略梯度的有限差分及其方差的算法,提供了一种非常通用而灵活的双重稳健策略梯度估计器,并分析了其方差、与现有估计器的比较及其效果。
Oct, 2019
在本文中,我们介绍了一种新的基于边际比率的 Off-Policy Evaluation (OPE) 估计器,用于 contextual bandits,旨在通过关注结果边际分布的变化来减少方差。我们通过严格的理论分析证明了 MR 估计器相对于传统方法(如 IPW 和 DR)在方差减小方面的优势。此外,我们还验证了 MR 估计器与最先进的 Marginalized Inverse Propensity Score (MIPS) 估计器之间的联系,并证明 MR 在广义 MIPS 估计器家族中具有更低的方差。我们的实验结果在合成数据集和真实世界数据集上验证了我们的理论发现,并突出了 MR 估计器在 contextual bandits 的 OPE 中的实际优势,特别是在因果推断设置中对于估计平均处理效应方面的性能提升。
Dec, 2023