上下文臂带中的离线风险评估
本研究探讨了在强化学习中应用基于模型的方法改进 off-policy risk 的估计,构建了第一个适用于 MDPs 的双重稳健估计器,提高了估计精度并实现了 Cramer-Rao 方差下界。
Sep, 2022
以 Markov 决策过程为基础,采用面对不确定性的乐观主义原则,使用一种乐观主义的分布 Bellman 算子,将回报分布的概率质量从下尾部移动到上尾部,从而快速学习具有良好 CVaR 的策略。该算法可以在多种模拟环境中更快地找到 CVaR 最优策略。
Nov, 2019
本研究旨在研究在没有相应奖励模型的情况下,通过使用由另一政策收集的数据来估算目标政策的价值的,上下文 Bandit 模型下的离线政策评估问题。所提出的 SWITCH estimator 可以使用现有的(不一定一致的)奖励模型来实现更好的偏差 - 方差平衡,从而在多个数据集上实现更好的表现。
Dec, 2016
研究一种基于条件风险价值(CVaR)的风险规避统计学习框架,提出了基于随机梯度下降的算法。对于凸和 Lipschitz 的损失函数,该算法收敛到最优 CVaR,而对于非凸和平滑的损失函数,该算法在 CVaR 上的泛化界表现良好。通过在各种机器学习任务上进行数值实验,证明了该算法有效地将 CVaR 最小化。
Feb, 2020
在本文中,我们介绍了一种新的基于边际比率的 Off-Policy Evaluation (OPE) 估计器,用于 contextual bandits,旨在通过关注结果边际分布的变化来减少方差。我们通过严格的理论分析证明了 MR 估计器相对于传统方法(如 IPW 和 DR)在方差减小方面的优势。此外,我们还验证了 MR 估计器与最先进的 Marginalized Inverse Propensity Score (MIPS) 估计器之间的联系,并证明 MR 在广义 MIPS 估计器家族中具有更低的方差。我们的实验结果在合成数据集和真实世界数据集上验证了我们的理论发现,并突出了 MR 估计器在 contextual bandits 的 OPE 中的实际优势,特别是在因果推断设置中对于估计平均处理效应方面的性能提升。
Dec, 2023
本研究提出了一种新的技术,将可实现性方法的经验和计算优势与不可知方法的灵活性相结合,借助回归预测器的可用性来进行算法优化,实现了任何分布假设下出色的表现。
Mar, 2018
本文扩展了分布鲁棒优化方法,提出了 Counterfactual Risk Minimization 原则的凸重构方法,介绍了通过 DRO 框架构建离线情境强化学习的渐近置信区间,使用了已知的鲁棒估计渐进性结果自动校准置信区间,并呈现了初步实验结果支持我们方法的有效性。
Nov, 2020
我们研究了风险敏感的强化学习 (RL),其中我们的目标是通过固定风险容忍度 τ 来最大化条件风险价值 (CVaR)。我们在大规模状态空间中使用 CVaR RL 来拓展推广 CVaR RL,功能逼近必须得到部署。在非线性功能逼近中,我们研究了低秩 MDPs 中的 CVaR RL。低秩 MDPs 假设底层转移核函数具有低秩分解,但与线性模型不同,低秩 MDPs 不假设已知特征或状态 - 动作表示。我们提出了一种新颖的上限信心界 (UCB) 奖励驱动算法,以在 CVaR RL 中精确平衡勘探、开发和表征学习之间的相互作用。我们证明我们的算法可以以样本复杂度 Õ((H^7 A^2 d^4) / (τ^2 ε^2)) 实现 ε- 最优 CVaR,其中 H 是每个 episode 的长度,A 是动作空间的容量,d 是表示的维度。在计算方面,我们为 CVaR 目标设计了一种新颖的离散最小二乘值迭代 (LSVI) 算法作为规划预期,并展示了我们可以在多项式时间内通过最大似然估计规划预期来找到接近最优的策略。据我们所知,这是第一个在低秩 MDPs 中可以被证明的有效的 CVaR RL 算法。
Nov, 2023
本文研究一个选择 arm 的问题,它通过平衡固定预算下预期奖励和相关 CVaR 之间的线性组合来优化,同时提出了一类可证明上限的算法,并比较其在非 oblivious 算法中的误差边界与实际表现(数字化实验)的竞争性。
Jun, 2019
我们研究了关于未观测到的混淆因素的离线情境赌博的政策评估。我们提出了一个通用的估计器,使用凸规划方法提供政策价值的一个锐利下界,具有各种扩展应用和强有力的理论保证。
Sep, 2023