自适应估价器选择用于非同策评估

ICMLFeb, 2020

自适应估价器选择用于非同策评估

Adaptive Estimator Selection for Off-Policy Evaluation

Yi Su, Pavithra Srinath, Akshay Krishnamurthy

TL;DR本研究提出一种基于数据驱动方法的估计器选择通用算法，为评估离线策略提供了一个有效的解决方案，在深入的情境模型和强化学习案例中都具有广泛的适用价值。经过实验验证，能够与现有不同相关方法相较而言获得更优的效果。

Abstract

We develop a generic data-driven method for estimator selection in off-policy policy evaluation settings. We establish a strong performance guarantee for the method, showing that it is competitive with the oracle

off-policy policy evaluation estimator selection contextual bandits reinforcement learning data-driven method

发现论文，激发创造

通过自适应加权利用来自上下文 Bandits 的数据进行离线策略评估

本文通过自适应加权控制方差，改进了重复鲁棒估计器，并且使用合成数据和公开基准测试提供了经验证据，相较于现有方案，我们的估计器具有更高的精确性和推论属性。

Jun, 2021

针对离线策略评估的策略自适应估计器选择

本研究首次探讨了针对真实数据的估计器选择问题，并提出了一种自适应的估计器选择方法，该方法利用可用日志数据适当地子采样并构建伪策略，显着提高了估计器的准确性。

Nov, 2022

基于上下文的赌博机中最优的自适应离线评估

本研究旨在研究在没有相应奖励模型的情况下，通过使用由另一政策收集的数据来估算目标政策的价值的，上下文 Bandit 模型下的离线政策评估问题。所提出的 SWITCH estimator 可以使用现有的（不一定一致的）奖励模型来实现更好的偏差 - 方差平衡，从而在多个数据集上实现更好的表现。

Dec, 2016

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

上下文广告非平稳策略评估的有效样本处理

提出了一种新的离线策略评估器，能够同时正确地结合重要性加权、双重稳健评估和非平稳策略评估方法，控制偏差 - 方差权衡并降低方差，并成功地将之前的方法统一起来，实现了对实验学习问题信息的更有效利用。

Oct, 2012

收缩双重鲁棒离线评估

提出了一个基于重要性权重收缩的新框架，用于设计背景依赖赌博机的估算器，得到了三个估算器，包括一个新的收缩估算器和第一个用于组合行动集的收缩估算器，并在基准问题中进行了广泛的实验，表明该估算器高度适应性，并且通常优于现有的方法。

Jul, 2019

基于 Bandit 反馈的高效反事实学习

本文考虑利用离线估计器从上下文 bandit 算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式，我们的估计器在广告设计方面得到了应用，证明了我们对标准估计器的方差降低是有效的。

Sep, 2018

强化学习的双重稳健性离线价值评估

研究了强化学习中 off-policy value evaluation 的问题，提出了一种将 doubly robust estimator 用于序列决策问题的方法，可以保证无偏差并且方差较低，在多个基准问题中都具有较高的准确度，并且可以作为安全策略改进的子程序。

Nov, 2015

交叉验证的离策略评估

本文研究了离策略评估中的估计器选择和超参数调优问题，并展示了如何使用交叉验证来解决这一问题，从而验证了交叉验证在离策略评估中是可行的。

May, 2024

上下文多臂老虎机的离线策略优化：高效的谨慎性

本文介绍了一种称为 `pessimistic policy optimization` 的算法，用于处理 contextual bandits 中的策略优化问题，并提供了对于这种方法的最佳统计估计。该算法运用监督学习的方法，在离线交互日志的基础上进行训练，非常适用于处理连续和离散行为空间的问题。

Jun, 2023