通过自适应加权利用来自上下文 Bandits 的数据进行离线策略评估

Jun, 2021

通过自适应加权利用来自上下文 Bandits 的数据进行离线策略评估

Off-Policy Evaluation via Adaptive Weighting with Data from Contextual Bandits

Ruohan Zhan, Vitor Hadad, David A. Hirshberg, Susan Athey

TL;DR本文通过自适应加权控制方差，改进了重复鲁棒估计器，并且使用合成数据和公开基准测试提供了经验证据，相较于现有方案，我们的估计器具有更高的精确性和推论属性。

Abstract

It has become increasingly common for data to be collected adaptively, for example using contextual bandits. Historical data of this type can be used to evaluate other treatment assignment policies to guide future innovation or experiments. However, →

contextual bandits policy evaluation doubly robust estimator adaptive weighting variance control

发现论文，激发创造

收缩双重鲁棒离线评估

提出了一个基于重要性权重收缩的新框架，用于设计背景依赖赌博机的估算器，得到了三个估算器，包括一个新的收缩估算器和第一个用于组合行动集的收缩估算器，并在基准问题中进行了广泛的实验，表明该估算器高度适应性，并且通常优于现有的方法。

Jul, 2019

上下文广告非平稳策略评估的有效样本处理

提出了一种新的离线策略评估器，能够同时正确地结合重要性加权、双重稳健评估和非平稳策略评估方法，控制偏差 - 方差权衡并降低方差，并成功地将之前的方法统一起来，实现了对实验学习问题信息的更有效利用。

Oct, 2012

通过自标准化的重要性权重实现自信的离线评估和选择

该研究考虑在上下文匹配机器学习算法的偏离策略评估中，提出了一种新的方法 —— 基于自归一化重要性权重估算目标策略的价值下界，并在合成和实际数据集上测试表明该方法可获得更优越的策略，包括更紧密的置信区间和选择的质量。

Jun, 2020

自适应估价器选择用于非同策评估

本研究提出一种基于数据驱动方法的估计器选择通用算法，为评估离线策略提供了一个有效的解决方案，在深入的情境模型和强化学习案例中都具有广泛的适用价值。经过实验验证，能够与现有不同相关方法相较而言获得更优的效果。

Feb, 2020

双重稳健策略评估与优化

论文研究了在环境中收益只有部分观测可用的情况下如何进行顺序决策，提出了双重稳健估计技术用于政策评估和优化，证明了该方法在具有良好收益模型或过去政策模型的情况下都能产生准确的价值估计。

Mar, 2015

双重稳健策略评估与学习

在具有上下文情境和目标函数的决策环境中，我们使用双重稳健技术评估新策略，并证明这种方法使价值估计具有较低的方差，且能达到更好的策略，为该领域提供一种有效的方法。

Mar, 2011

基于上下文的赌博机中最优的自适应离线评估

本研究旨在研究在没有相应奖励模型的情况下，通过使用由另一政策收集的数据来估算目标政策的价值的，上下文 Bandit 模型下的离线政策评估问题。所提出的 SWITCH estimator 可以使用现有的（不一定一致的）奖励模型来实现更好的偏差 - 方差平衡，从而在多个数据集上实现更好的表现。

Dec, 2016

重要性加权的线下学习方法

离线策略优化，随机情境赌博问题，重要性加权估计，隐性探索估计，PAC-Bayesian 策略类的改进

Sep, 2023

利用 M - 估计器对自适应收集数据进行统计推断

本论文通过理论分析，提出了一种基于 M - 估计量的方法，利用自适应算法（包括习得算法和最大似然算法）处理 bandit 算法采集的数据，进而构建了一种渐进有效的置信区间方法，可用于许多统计推断目标。

Apr, 2021

平衡策略评估与学习

提出了一种基于平衡的权重方法来评估和学习个性化决策策略，该方法适用于利用历史记录来进行个性化医疗和互联网广告，该方法明显优于现有方法。

May, 2017