本文研究了具有多维动作,即石板的批量上下文强化学习的现实场景 —— 推荐系统和用户界面优化 —— 中的离线策略评估问题。通过控制变量,我们考虑了一类包括伪逆估计器(PI estimator)和(渐近地)自归一化 PI 估计器在内的无偏估计器,通过优化这一类得到的新估计量具有比 PI 和自归一化 PI 估计量更好的风险收敛性。真实世界的推荐数据和合成数据的实验验证了这些改进的实际效果。
Jun, 2021
本文考虑利用离线估计器从上下文 bandit 算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式,我们的估计器在广告设计方面得到了应用,证明了我们对标准估计器的方差降低是有效的。
Sep, 2018
本文针对这些技术因满足不了多步骤 MARKOV 决策过程的情况下的算法运转动态,证明了在赌博机和强化学习问题中,曲率和噪声不能充分解释这些问题,若算法收敛进行的选择不当,有可能无法打到期望的效果并进行理论论证。我们实验证明了这一理论发现,并将其扩展到多状态 MDPs 。
Aug, 2020
研究离线情境下的由于未观测某些条件变量和数据缺失而引起的偏差和低效问题,提出了一种名为 CAP 的新算法,在数据的基础上形成奖励函数、建立置信区间,并通过悲观主义的方式贪心地采取行动来学习最优策略。
Mar, 2023
这篇论文研究在线决策问题,通过采用上下文乐队 it,并建立奖励模型来进行长期奖励最大化。 使用估计模型参数的 OLS 和 WLS 方法来处理该问题,借助中心极限定理证明了参数的渐近正常性。同时,我们还通过实验验证了我们的结论。
Oct, 2020
我们介绍了一种分布健壮的方法,用于在背景变量移位下增强上下文赌博的离线策略评估的可靠性。通过应用分布健壮回归技术改进条件奖励分布的估计,我们开发出一套综合的策略价值评估器,并通过理论分析证明了该方法相对于传统方法在偏移较大时的有限样本上限优势。在广泛的策略评估场景中,我们的实证结果表明我们的方法明显优于基准方法。
Jan, 2024
论文研究了在环境中收益只有部分观测可用的情况下如何进行顺序决策,提出了双重稳健估计技术用于政策评估和优化,证明了该方法在具有良好收益模型或过去政策模型的情况下都能产生准确的价值估计。
Mar, 2015
我们考虑了上下文强盗问题,在每个时间点上,代理只能访问上下文的嘈杂版本和误差方差(或该方差的估计)。我们提出了第一个在线算法,与适当的基准相比,在此设置中具有亚线性遗憾,其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中,这是一个非常复杂的问题,因为策略依赖于嘈杂的上下文观察。
Jul, 2023
在具有上下文情境和目标函数的决策环境中,我们使用双重稳健技术评估新策略,并证明这种方法使价值估计具有较低的方差,且能达到更好的策略,为该领域提供一种有效的方法。
Mar, 2011
本研究旨在研究在没有相应奖励模型的情况下,通过使用由另一政策收集的数据来估算目标政策的价值的,上下文 Bandit 模型下的离线政策评估问题。所提出的 SWITCH estimator 可以使用现有的(不一定一致的)奖励模型来实现更好的偏差 - 方差平衡,从而在多个数据集上实现更好的表现。
Dec, 2016