为离线评估学习动作嵌入

May, 2023

Learning Action Embeddings for Off-Policy Evaluation

Matej Cief, Jacek Golebiowski, Philipp Schmidt, Ziawasch Abedjan, Artur Bekasov

TL;DR本研究提出了一种使用训练好的奖励模型输出来定义 MIPS 动作嵌入的方法，该方法可以减少 IPS 在大规模动作空间中的方差，并扩展了 MIPS 的应用范围，在合成和实际数据上都优于预定义的嵌入和标准基线模型，不需要奖励模型类的假设，并支持使用其他动作信息来进一步提高估计精度。

Abstract

off-policy evaluation (OPE) methods allow us to compute the expected reward of a policy by using the logged data collected by a different policy. OPE is a viable alternative to running expensive online A/B tests: it can speed up the development of new policies, and reduces the risk of

off-policy evaluation inverse-propensity scoring marginalized ips action embeddings reward model

发现论文，激发创造

利用嵌入技术进行大型行动空间的离策估计

提出一种基于边际化重要性权重的新 Off-Policy Evaluation（OPE）估算器，旨在解决现有 OPE 估算器在动作数量很大时出现的极端偏差和方差问题，能够为许多应用程序，从推荐系统到语言模型中提供可靠的 OPE，并分析了行动嵌入在传统估计量之上提供统计收益的条件。

Feb, 2022

具有大行动空间的离策评估的双重稳健估计方法

我们在具有大动作空间的情境赌博设置中研究了离策略评估 (Off-Policy Evaluation，OPE)。基准估计器在严重的偏差和方差权衡中遇到困难。为了克服这些限制，我们提出了基于动作嵌入 (MIPS) 的边际化逆向倾向评分 (Marginalized Inverse Propensity Scoring, MIPS) 来减少估计器的方差。为了使估计器更准确，我们提出了 MIPS 的双重稳健估计器 (Marginalized Doubly Robust, MDR)。理论分析表明，所提出的估计器在比 MIPS 更弱的假设下是无偏的，同时保持对 IPS 的方差减少，这是 MIPS 的主要优势。经验实验证实了 MDR 对现有估计器的卓越性。

Aug, 2023

通过优化概括方法评估推荐策略的离策略算法

我们开发了一种用于预测多维动作的选择问题中离线策略评估的新方法，称为潜在 IPS（LIPS），它通过在低维抽象空间中优化抽象来最小化 LIPS 的偏差和方差，从而显著减小 IPS 的方差并避免对奖励函数结构进行过多的限制性假设，通过实证评估，我们证明 LIPS 在非线性奖励和大型抽象空间的场景中明显优于现有的评估方法。

Feb, 2024

多样化用户行为下排名策略的离线评估

该研究提出了自适应 IPS（AIPS）的方法来解决 IPS 方法在排名设置中应用的巨大方差问题，还探讨了用户行为多样性的影响。该方法极大地提高了排名系统的 OPE 有效性。

Jun, 2023

离线策略评估方法（Off-Policy Evaluation）基于离线策略分类（Off-Policy Classification）

本文旨在解决深度强化学习领域中的模型选择问题，并提出一种基于 Q 函数作为决策函数的正无标记（PU）分类问题的度量方法来评估离线策略评估的性能，该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程，并且在一些任务上表现优于基线算法。

Jun, 2019

利用分解的动作空间进行脱机策略评估

通过利用分解行动空间的技术，我们提出了一种新的家族式重要性采样估计器，以减少现有 OPE 估计器的偏差和方差问题，同时保持零偏差的特性。

Jul, 2023

具有潜在混淆因素的无限时段强化学习中的离线评估

针对强化学习领域中的 Off-policy Evaluation 问题，本研究提出了一种基于无法观测到的干扰变量的无限时域 Markov 决策过程方法，并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法，从 Off-policy 数据中识别政策价值。

Jul, 2020

基于边际化重要性采样的强化学习最优离线评估

本研究提出了一种基于较小方差的边缘重要性抽样 (MIS) 的算法，用以解决 RL 中 long horizon MDP 的 Off-policy evaluation (OPE) 问题，并表现出在多个环境中的良好表现。

Jun, 2019

具有通用数据生成策略的反事实学习

本文提出了用于处理全支撑和有缺陷支撑的日志策略，并证明其在样本量增加时预测收敛于反事实策略的真实表现的 off-policy evaluation 方法，并将其应用于优化在线平台的 coupon targeting policies。

Dec, 2022

针对离线策略评估的策略自适应估计器选择

本研究首次探讨了针对真实数据的估计器选择问题，并提出了一种自适应的估计器选择方法，该方法利用可用日志数据适当地子采样并构建伪策略，显着提高了估计器的准确性。

Nov, 2022