抵消干扰稳健推理的凸框架
通过数据策略辅助下的敏感性模型,我们开发了一种强健的方法,针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量,估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明,随着我们收集更多混淆数据,我们能够收敛于尖锐的边界。虽然检查集合成员身份是一个线性规划,但支持功能是由一个困难的非凸优化问题给出的。我们基于非凸投影梯度下降方法开发了一些近似,并在实证中演示了所得到的边界。
Feb, 2020
研究离线情境下的由于未观测某些条件变量和数据缺失而引起的偏差和低效问题,提出了一种名为 CAP 的新算法,在数据的基础上形成奖励函数、建立置信区间,并通过悲观主义的方式贪心地采取行动来学习最优策略。
Mar, 2023
研究使用观察数据学习个性化决策策略时如何考虑可能的未观测混杂因素以及最小化候选策略的最坏估计后悔的方法和算法,以在保证安全和关注证据改进的前提下得到可靠的个性化治疗策略。
May, 2018
我们介绍了一种分布健壮的方法,用于在背景变量移位下增强上下文赌博的离线策略评估的可靠性。通过应用分布健壮回归技术改进条件奖励分布的估计,我们开发出一套综合的策略价值评估器,并通过理论分析证明了该方法相对于传统方法在偏移较大时的有限样本上限优势。在广泛的策略评估场景中,我们的实证结果表明我们的方法明显优于基准方法。
Jan, 2024
本文扩展了分布鲁棒优化方法,提出了 Counterfactual Risk Minimization 原则的凸重构方法,介绍了通过 DRO 框架构建离线情境强化学习的渐近置信区间,使用了已知的鲁棒估计渐进性结果自动校准置信区间,并呈现了初步实验结果支持我们方法的有效性。
Nov, 2020
论文研究了在环境中收益只有部分观测可用的情况下如何进行顺序决策,提出了双重稳健估计技术用于政策评估和优化,证明了该方法在具有良好收益模型或过去政策模型的情况下都能产生准确的价值估计。
Mar, 2015
提出了一个基于重要性权重收缩的新框架,用于设计背景依赖赌博机的估算器,得到了三个估算器,包括一个新的收缩估算器和第一个用于组合行动集的收缩估算器,并在基准问题中进行了广泛的实验,表明该估算器高度适应性,并且通常优于现有的方法。
Jul, 2019
在环境变化、干扰函数估计不一致和有限样本学习的情况下,本研究旨在评估策略值,并提出了一种扰动模型,可以根据转移观测对传统 MDP 进行边界估计。
Mar, 2024
本研究旨在研究在没有相应奖励模型的情况下,通过使用由另一政策收集的数据来估算目标政策的价值的,上下文 Bandit 模型下的离线政策评估问题。所提出的 SWITCH estimator 可以使用现有的(不一定一致的)奖励模型来实现更好的偏差 - 方差平衡,从而在多个数据集上实现更好的表现。
Dec, 2016
在具有上下文情境和目标函数的决策环境中,我们使用双重稳健技术评估新策略,并证明这种方法使价值估计具有较低的方差,且能达到更好的策略,为该领域提供一种有效的方法。
Mar, 2011