利用嵌入技术进行大型行动空间的离策估计

ICMLFeb, 2022

利用嵌入技术进行大型行动空间的离策估计

Off-Policy Evaluation for Large Action Spaces via Embeddings

Yuta Saito, Thorsten Joachims

TL;DR提出一种基于边际化重要性权重的新 Off-Policy Evaluation（OPE）估算器，旨在解决现有 OPE 估算器在动作数量很大时出现的极端偏差和方差问题，能够为许多应用程序，从推荐系统到语言模型中提供可靠的 OPE，并分析了行动嵌入在传统估计量之上提供统计收益的条件。

Abstract

off-policy evaluation (OPE) in contextual bandits has seen rapid adoption in real-world systems, since it enables offline evaluation of new policies using only historic log data. Unfortunately, when the number of

off-policy evaluation contextual bandits propensity score weighting action embeddings recommender systems

发现论文，激发创造

为离线评估学习动作嵌入

本研究提出了一种使用训练好的奖励模型输出来定义 MIPS 动作嵌入的方法，该方法可以减少 IPS 在大规模动作空间中的方差，并扩展了 MIPS 的应用范围，在合成和实际数据上都优于预定义的嵌入和标准基线模型，不需要奖励模型类的假设，并支持使用其他动作信息来进一步提高估计精度。

May, 2023

通用动作空间中的平衡离线评估

提出了平衡离线策略评估 (B-OPE) 的通用方法，通过将估计权重的风险最小化，减小了平衡不匹配的问题，其二分类解决方案可适用于所有操作类型，并且易于超参数调整，实验证明其在离线策略评估中得到应用。

Jun, 2019

具有大行动空间的离策评估的双重稳健估计方法

我们在具有大动作空间的情境赌博设置中研究了离策略评估 (Off-Policy Evaluation，OPE)。基准估计器在严重的偏差和方差权衡中遇到困难。为了克服这些限制，我们提出了基于动作嵌入 (MIPS) 的边际化逆向倾向评分 (Marginalized Inverse Propensity Scoring, MIPS) 来减少估计器的方差。为了使估计器更准确，我们提出了 MIPS 的双重稳健估计器 (Marginalized Doubly Robust, MDR)。理论分析表明，所提出的估计器在比 MIPS 更弱的假设下是无偏的，同时保持对 IPS 的方差减少，这是 MIPS 的主要优势。经验实验证实了 MDR 对现有估计器的卓越性。

Aug, 2023

利用分解的动作空间进行脱机策略评估

通过利用分解行动空间的技术，我们提出了一种新的家族式重要性采样估计器，以减少现有 OPE 估计器的偏差和方差问题，同时保持零偏差的特性。

Jul, 2023

通过联合效应建模进行大动作空间的离线评估

本文提出了新的估计器 OffCEM，它基于连带效应模型（CEM），通过将重要性加权仅应用于动作池，通过基于模型的奖励估计解决了残余因果效应的问题。实验表明 OffCEM 估计器在 OPE 中具有显著的提升。

May, 2023

通过优化概括方法评估推荐策略的离策略算法

我们开发了一种用于预测多维动作的选择问题中离线策略评估的新方法，称为潜在 IPS（LIPS），它通过在低维抽象空间中优化抽象来最小化 LIPS 的偏差和方差，从而显著减小 IPS 的方差并避免对奖励函数结构进行过多的限制性假设，通过实证评估，我们证明 LIPS 在非线性奖励和大型抽象空间的场景中明显优于现有的评估方法。

Feb, 2024

离线策略评估方法（Off-Policy Evaluation）基于离线策略分类（Off-Policy Classification）

本文旨在解决深度强化学习领域中的模型选择问题，并提出一种基于 Q 函数作为决策函数的正无标记（PU）分类问题的度量方法来评估离线策略评估的性能，该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程，并且在一些任务上表现优于基线算法。

Jun, 2019

在情境强化学习中进行的离线策略评估的边际密度比

在本文中，我们介绍了一种新的基于边际比率的 Off-Policy Evaluation (OPE) 估计器，用于 contextual bandits，旨在通过关注结果边际分布的变化来减少方差。我们通过严格的理论分析证明了 MR 估计器相对于传统方法（如 IPW 和 DR）在方差减小方面的优势。此外，我们还验证了 MR 估计器与最先进的 Marginalized Inverse Propensity Score (MIPS) 估计器之间的联系，并证明 MR 在广义 MIPS 估计器家族中具有更低的方差。我们的实验结果在合成数据集和真实世界数据集上验证了我们的理论发现，并突出了 MR 估计器在 contextual bandits 的 OPE 中的实际优势，特别是在因果推断设置中对于估计平均处理效应方面的性能提升。

Dec, 2023

基于级联行为模型的排序策略双重稳健离线评估

提出了一种新的基于级联假设的有偏差 - 无方差权衡评估器来评估推荐系统中的排名策略，在综合合成和真实数据实验中优于现有评估器。

Feb, 2022

使用核贝尔曼统计量进行负责任离线策略评估

本文提出一个新的变分框架，将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题，通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明，我们的方法在不同环境下都能产生紧密的置信区间。

Aug, 2020