论文研究了在环境中收益只有部分观测可用的情况下如何进行顺序决策,提出了双重稳健估计技术用于政策评估和优化,证明了该方法在具有良好收益模型或过去政策模型的情况下都能产生准确的价值估计。
Mar, 2015
本文提出了一种利用历史观测数据解决偏移环境的分布鲁棒性策略学习算法,该算法通过提出的策略评估方案和基于均匀收敛理论的性能保证实现对敌对干扰和未知协变量转移的稳健性,并在真实世界数据集中展示了该方法的应用。
Jun, 2020
研究了强化学习中 off-policy value evaluation 的问题,提出了一种将 doubly robust estimator 用于序列决策问题的方法,可以保证无偏差并且方差较低,在多个基准问题中都具有较高的准确度,并且可以作为安全策略改进的子程序。
Nov, 2015
我们介绍了一种分布健壮的方法,用于在背景变量移位下增强上下文赌博的离线策略评估的可靠性。通过应用分布健壮回归技术改进条件奖励分布的估计,我们开发出一套综合的策略价值评估器,并通过理论分析证明了该方法相对于传统方法在偏移较大时的有限样本上限优势。在广泛的策略评估场景中,我们的实证结果表明我们的方法明显优于基准方法。
Jan, 2024
提出了一种基于平衡的权重方法来评估和学习个性化决策策略,该方法适用于利用历史记录来进行个性化医疗和互联网广告,该方法明显优于现有方法。
May, 2017
本文通过自适应加权控制方差,改进了重复鲁棒估计器,并且使用合成数据和公开基准测试提供了经验证据,相较于现有方案,我们的估计器具有更高的精确性和推论属性。
Jun, 2021
提出了一种新的离线策略评估器,能够同时正确地结合重要性加权、双重稳健评估和非平稳策略评估方法,控制偏差 - 方差权衡并降低方差,并成功地将之前的方法统一起来,实现了对实验学习问题信息的更有效利用。
Oct, 2012
本文研究了离策略演员 - 评论家算法的离策略评论家评估问题,并通过将双重稳健估计方法应用于演员 - 评论家算法中,成功提高了连续控制任务的性能。同时,该方法还可以应用于存在高方差和不稳定性等问题的奖励信号,从而提高了强化学习的稳健性与安全性。
Dec, 2019
提出了一个基于重要性权重收缩的新框架,用于设计背景依赖赌博机的估算器,得到了三个估算器,包括一个新的收缩估算器和第一个用于组合行动集的收缩估算器,并在基准问题中进行了广泛的实验,表明该估算器高度适应性,并且通常优于现有的方法。
Jul, 2019
本文提出了一种新的方法来预测在给定历史数据的情况下,加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合,提出一个基于双重稳健估计器扩展的新估计器,使得估计结果的均方误差通常比现有方法低几个数量级。
Apr, 2016