本文通过自适应加权控制方差,改进了重复鲁棒估计器,并且使用合成数据和公开基准测试提供了经验证据,相较于现有方案,我们的估计器具有更高的精确性和推论属性。
Jun, 2021
本研究首次探讨了针对真实数据的估计器选择问题,并提出了一种自适应的估计器选择方法,该方法利用可用日志数据适当地子采样并构建伪策略,显着提高了估计器的准确性。
Nov, 2022
本研究旨在研究在没有相应奖励模型的情况下,通过使用由另一政策收集的数据来估算目标政策的价值的,上下文 Bandit 模型下的离线政策评估问题。所提出的 SWITCH estimator 可以使用现有的(不一定一致的)奖励模型来实现更好的偏差 - 方差平衡,从而在多个数据集上实现更好的表现。
Dec, 2016
本文提出了一种新的方法来预测在给定历史数据的情况下,加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合,提出一个基于双重稳健估计器扩展的新估计器,使得估计结果的均方误差通常比现有方法低几个数量级。
Apr, 2016
提出了一种新的离线策略评估器,能够同时正确地结合重要性加权、双重稳健评估和非平稳策略评估方法,控制偏差 - 方差权衡并降低方差,并成功地将之前的方法统一起来,实现了对实验学习问题信息的更有效利用。
Oct, 2012
提出了一个基于重要性权重收缩的新框架,用于设计背景依赖赌博机的估算器,得到了三个估算器,包括一个新的收缩估算器和第一个用于组合行动集的收缩估算器,并在基准问题中进行了广泛的实验,表明该估算器高度适应性,并且通常优于现有的方法。
Jul, 2019
本文考虑利用离线估计器从上下文 bandit 算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式,我们的估计器在广告设计方面得到了应用,证明了我们对标准估计器的方差降低是有效的。
Sep, 2018
研究了强化学习中 off-policy value evaluation 的问题,提出了一种将 doubly robust estimator 用于序列决策问题的方法,可以保证无偏差并且方差较低,在多个基准问题中都具有较高的准确度,并且可以作为安全策略改进的子程序。
Nov, 2015
本文研究了离策略评估中的估计器选择和超参数调优问题,并展示了如何使用交叉验证来解决这一问题,从而验证了交叉验证在离策略评估中是可行的。
May, 2024
本文介绍了一种称为 `pessimistic policy optimization` 的算法,用于处理 contextual bandits 中的策略优化问题,并提供了对于这种方法的最佳统计估计。该算法运用监督学习的方法,在离线交互日志的基础上进行训练,非常适用于处理连续和离散行为空间的问题。
Jun, 2023