May, 2024
交叉验证的离策略评估
Cross-Validated Off-Policy Evaluation
Matej Cief, Michal Kompan, Branislav Kveton
TL;DR本文研究了离策略评估中的估计器选择和超参数调优问题,并展示了如何使用交叉验证来解决这一问题,从而验证了交叉验证在离策略评估中是可行的。
Abstract
In this paper, we study the problem of estimator selection and
hyper-parameter tuning in off-policy evaluation. Although →
发现论文,激发创造
针对离线策略评估的策略自适应估计器选择
本研究首次探讨了针对真实数据的估计器选择问题,并提出了一种自适应的估计器选择方法,该方法利用可用日志数据适当地子采样并构建伪策略,显着提高了估计器的准确性。
Nov, 2022
自适应估价器选择用于非同策评估
本研究提出一种基于数据驱动方法的估计器选择通用算法,为评估离线策略提供了一个有效的解决方案,在深入的情境模型和强化学习案例中都具有广泛的适用价值。经过实验验证,能够与现有不同相关方法相较而言获得更优的效果。
Feb, 2020
强化学习中有解释的离线策略评估:突出具有影响力的状态转移
本文提出了一种混合人工智能系统的方法,该方法可以通过关注数据中对 OPE 估计产生很大影响的观察点,并制定一组选择规则,使领域专家能够分析 OPE 估计的有效性。该方法可以应用在医学模拟和真实世界中的重症监护数据中,可以用于识别评估过程中的限制并使评估更加稳健。
Feb, 2020
通过规则化的定向学习实现更高效的离线策略评估
本文介绍了基于因果推断的目标最大似然估计原理所提出的新型双重稳健的评估方法和多种方差减少技术,能够在多种强化学习环境和各种模型规范级别下比现有评估方法都能表现出更好的性能
Dec, 2019
反事实学习方法的大规模验证:一个测试平台
本研究提供并使用实际数据和标准测试平台,基于广告展示探索了历来研究最新的无政策评估和学习方法(如双重优化、POEM 和基于回归基线的监督学习),结果表明最新的无政策学习方法可以改进大规模真实世界数据集上的历史最优监督学习技术。
Dec, 2016
离线策略评估方法(Off-Policy Evaluation)基于离线策略分类(Off-Policy Classification)
本文旨在解决深度强化学习领域中的模型选择问题,并提出一种基于 Q 函数作为决策函数的正无标记(PU)分类问题的度量方法来评估离线策略评估的性能,该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程,并且在一些任务上表现优于基线算法。
Jun, 2019