针对离线策略上下文主动学习任务的最佳基线修正

May, 2024

针对离线策略上下文主动学习任务的最佳基线修正

Optimal Baseline Corrections for Off-Policy Contextual Bandits

Shashank Gupta, Olivier Jeunen, Harrie Oosterhuis, Maarten de Rijke

TL;DR将离线学习范式应用于推荐系统和排名应用，提出一个统一的框架，采用等效的均衡基准修正方法来减少估计方差，从而得到方差最优的无偏估计器。

Abstract

The off-policy learning paradigm allows for recommender systems and general ranking applications to be framed as decision-making problems,

off-policy learning paradigm recommender systems ranking applications decision policies variance-optimal unbiased estimator

发现论文，激发创造

Slate 离策略评估的控制变量

本文研究了具有多维动作，即石板的批量上下文强化学习的现实场景 —— 推荐系统和用户界面优化 —— 中的离线策略评估问题。通过控制变量，我们考虑了一类包括伪逆估计器（PI estimator）和（渐近地）自归一化 PI 估计器在内的无偏估计器，通过优化这一类得到的新估计量具有比 PI 和自归一化 PI 估计量更好的风险收敛性。真实世界的推荐数据和合成数据的实验验证了这些改进的实际效果。

Jun, 2021

基于 Bandit 反馈的高效反事实学习

本文考虑利用离线估计器从上下文 bandit 算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式，我们的估计器在广告设计方面得到了应用，证明了我们对标准估计器的方差降低是有效的。

Sep, 2018

超越方差减少：理解基线对策略优化的真正影响

本文针对这些技术因满足不了多步骤 MARKOV 决策过程的情况下的算法运转动态，证明了在赌博机和强化学习问题中，曲率和噪声不能充分解释这些问题，若算法收敛进行的选择不当，有可能无法打到期望的效果并进行理论论证。我们实验证明了这一理论发现，并将其扩展到多状态 MDPs 。

Aug, 2020

具有混淆偏差和缺失观察数据的情境赌博政策学习的统一框架

研究离线情境下的由于未观测某些条件变量和数据缺失而引起的偏差和低效问题，提出了一种名为 CAP 的新算法，在数据的基础上形成奖励函数、建立置信区间，并通过悲观主义的方式贪心地采取行动来学习最优策略。

Mar, 2023

上下文匹配赌博机环境下的在线决策统计推断

这篇论文研究在线决策问题，通过采用上下文乐队 it，并建立奖励模型来进行长期奖励最大化。使用估计模型参数的 OLS 和 WLS 方法来处理该问题，借助中心极限定理证明了参数的渐近正常性。同时，我们还通过实验验证了我们的结论。

Oct, 2020

上下文强化学习中基于一般协变量转移的分布稳健策略评估

我们介绍了一种分布健壮的方法，用于在背景变量移位下增强上下文赌博的离线策略评估的可靠性。通过应用分布健壮回归技术改进条件奖励分布的估计，我们开发出一套综合的策略价值评估器，并通过理论分析证明了该方法相对于传统方法在偏移较大时的有限样本上限优势。在广泛的策略评估场景中，我们的实证结果表明我们的方法明显优于基准方法。

Jan, 2024

双重稳健策略评估与优化

论文研究了在环境中收益只有部分观测可用的情况下如何进行顺序决策，提出了双重稳健估计技术用于政策评估和优化，证明了该方法在具有良好收益模型或过去政策模型的情况下都能产生准确的价值估计。

Mar, 2015

带预测内容的在线强盗学习

我们考虑了上下文强盗问题，在每个时间点上，代理只能访问上下文的嘈杂版本和误差方差（或该方差的估计）。我们提出了第一个在线算法，与适当的基准相比，在此设置中具有亚线性遗憾，其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中，这是一个非常复杂的问题，因为策略依赖于嘈杂的上下文观察。

Jul, 2023

双重稳健策略评估与学习

在具有上下文情境和目标函数的决策环境中，我们使用双重稳健技术评估新策略，并证明这种方法使价值估计具有较低的方差，且能达到更好的策略，为该领域提供一种有效的方法。

Mar, 2011

基于上下文的赌博机中最优的自适应离线评估

本研究旨在研究在没有相应奖励模型的情况下，通过使用由另一政策收集的数据来估算目标政策的价值的，上下文 Bandit 模型下的离线政策评估问题。所提出的 SWITCH estimator 可以使用现有的（不一定一致的）奖励模型来实现更好的偏差 - 方差平衡，从而在多个数据集上实现更好的表现。

Dec, 2016