Slate 离策略评估的控制变量

Jun, 2021

Control Variates for Slate Off-Policy Evaluation

Nikos Vlassis, Ashok Chandrashekar, Fernando Amat Gil, Nathan Kallus

TL;DR本文研究了具有多维动作，即石板的批量上下文强化学习的现实场景 —— 推荐系统和用户界面优化 —— 中的离线策略评估问题。通过控制变量，我们考虑了一类包括伪逆估计器（PI estimator）和（渐近地）自归一化 PI 估计器在内的无偏估计器，通过优化这一类得到的新估计量具有比 PI 和自归一化 PI 估计量更好的风险收敛性。真实世界的推荐数据和合成数据的实验验证了这些改进的实际效果。

Abstract

We study the problem of off-policy evaluation from batched contextual bandit data with multidimensional actions, often termed slates. The problem is common to →

off-policy evaluation batched contextual bandit data multidimensional actions recommender systems user-interface optimization

发现论文，激发创造

通过优化概括方法评估推荐策略的离策略算法

我们开发了一种用于预测多维动作的选择问题中离线策略评估的新方法，称为潜在 IPS（LIPS），它通过在低维抽象空间中优化抽象来最小化 LIPS 的偏差和方差，从而显著减小 IPS 的方差并避免对奖励函数结构进行过多的限制性假设，通过实证评估，我们证明 LIPS 在非线性奖励和大型抽象空间的场景中明显优于现有的评估方法。

Feb, 2024

针对离线策略上下文主动学习任务的最佳基线修正

将离线学习范式应用于推荐系统和排名应用，提出一个统一的框架，采用等效的均衡基准修正方法来减少估计方差，从而得到方差最优的无偏估计器。

May, 2024

基于非当前策略的推荐策略评估

本文研究了基于上下文的推荐策略（例如排名）的评估方法，在组合赌博技术的基础上引入了一种新的实用估计量，该方法可以使用已记录的数据估计政策的绩效，经过全面的实证评估，我们的估计器在多种设置下都很准确，包括在学习排序任务中作为子程序，我们导出了我们的估计器无偏的条件，这些条件比之前的推荐评估启发式要弱，并在实验中比参数方法具有更小的偏差，即使这些条件被违反。最后，我们的理论和实验也表明，与一般的无偏估计相比，所需的数据量呈指数级节约。

May, 2016

基于分布式的离线策略评估：面向推荐系统的多项式建议

提出了一种估计多个物品推荐策略的完整离线性能分布的估计器，并确定了估计器无偏且一致的条件。通过在合成数据和基于真实世界数据（MovieLens-20M）构建的推荐模拟器上进行实证验证，结果表明相比以前的工作，在各种推荐类型的情况下，估计方差显著减小，并且样本效率提高。

Aug, 2023

基于上下文的赌博机中最优的自适应离线评估

本研究旨在研究在没有相应奖励模型的情况下，通过使用由另一政策收集的数据来估算目标政策的价值的，上下文 Bandit 模型下的离线政策评估问题。所提出的 SWITCH estimator 可以使用现有的（不一定一致的）奖励模型来实现更好的偏差 - 方差平衡，从而在多个数据集上实现更好的表现。

Dec, 2016

Stein 恒等式在策略优化中的基于行动的控制变量

本研究提出了一种控制变量方法，通过引入更广泛的基线函数来解决强化学习中策略梯度估计的大方差问题，实验证明该方法显著提高了最先进的策略梯度方法的样本效率。

Oct, 2017

生成式推荐的变异控制和评估

本文提出采用多样性度量方法来增强精度评估，这样可以估计生成模型的随机行为。我们提出了一个有效的生成解决方案，它位于两个极端的尺肘区域之间，并演示了物品扰动可以强制执行以更好的覆盖物品变化，并将性能扩展到易于发现的区域。我们进一步提出将中心枢轴选择阶段与生成过程分开，以便于应用扰动，实验结果表明，这种简单的修改可以提供更好的方差与同等精度的后生成扰动方法相比。

Feb, 2021

基于 Bandit 反馈的高效反事实学习

本文考虑利用离线估计器从上下文 bandit 算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式，我们的估计器在广告设计方面得到了应用，证明了我们对标准估计器的方差降低是有效的。

Sep, 2018

用于评估和改进库存控制策略的上下文境决策

该研究介绍了周期性审查库存控制问题的解决方案，涉及非平稳随机需求、销售损失和随机供应商交货时间，引入了平衡策略的概念，并提供了一种轻量级的基于上下文的依据算法，以评估和偶尔调整策略，证明了该方法在理论和实证研究中取得了良好的保证。

Oct, 2023

上下文臂带中的离线风险评估

该论文提出了一种基于 Lipschitz 风险函数的离线策略评估框架，使用 OPRA 估算目标策略的 CDF，提供了对任何 Lipschitz 风险集合的插值估计，具有同时保证整个类的有限样本保证，并使用重要性采样和双重稳健估计实例化 OPRA。

Apr, 2021