利用分解的动作空间进行脱机策略评估

ICMLJul, 2023

利用分解的动作空间进行脱机策略评估

Leveraging Factored Action Spaces for Off-Policy Evaluation

Aaman Rebello, Shengpu Tang, Jenna Wiens, Sonali Parbhoo

TL;DR通过利用分解行动空间的技术，我们提出了一种新的家族式重要性采样估计器，以减少现有 OPE 估计器的偏差和方差问题，同时保持零偏差的特性。

Abstract

off-policy evaluation (OPE) aims to estimate the benefit of following a counterfactual sequence of actions, given data collected from executed sequences. However, existing OPE estimators often exhibit high bias a

off-policy evaluation factored action spaces importance sampling bias variance

发现论文，激发创造

利用嵌入技术进行大型行动空间的离策估计

提出一种基于边际化重要性权重的新 Off-Policy Evaluation（OPE）估算器，旨在解决现有 OPE 估算器在动作数量很大时出现的极端偏差和方差问题，能够为许多应用程序，从推荐系统到语言模型中提供可靠的 OPE，并分析了行动嵌入在传统估计量之上提供统计收益的条件。

Feb, 2022

通过状态抽象将边缘重要抽样扩展到高维状态空间

本研究提出了一种基于状态抽象的离线策略评估方法，采用较低维的状态空间可以降低重要性采样中方差的影响，提高评估准确性和鲁棒性。

Dec, 2022

通用动作空间中的平衡离线评估

提出了平衡离线策略评估 (B-OPE) 的通用方法，通过将估计权重的风险最小化，减小了平衡不匹配的问题，其二分类解决方案可适用于所有操作类型，并且易于超参数调整，实验证明其在离线策略评估中得到应用。

Jun, 2019

离线策略评估方法（Off-Policy Evaluation）基于离线策略分类（Off-Policy Classification）

本文旨在解决深度强化学习领域中的模型选择问题，并提出一种基于 Q 函数作为决策函数的正无标记（PU）分类问题的度量方法来评估离线策略评估的性能，该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程，并且在一些任务上表现优于基线算法。

Jun, 2019

为离线评估学习动作嵌入

本研究提出了一种使用训练好的奖励模型输出来定义 MIPS 动作嵌入的方法，该方法可以减少 IPS 在大规模动作空间中的方差，并扩展了 MIPS 的应用范围，在合成和实际数据上都优于预定义的嵌入和标准基线模型，不需要奖励模型类的假设，并支持使用其他动作信息来进一步提高估计精度。

May, 2023

针对离线策略评估的策略自适应估计器选择

本研究首次探讨了针对真实数据的估计器选择问题，并提出了一种自适应的估计器选择方法，该方法利用可用日志数据适当地子采样并构建伪策略，显着提高了估计器的准确性。

Nov, 2022

AutoOPE：自动离策择估计器选择

自动数据驱动的离策评估估计器选择方法，基于机器学习模型在合成任务中预测最佳估计器，能够在多个真实世界数据集上选择更好的估计器并显著降低计算成本。

Jun, 2024

使用核贝尔曼统计量进行负责任离线策略评估

本文提出一个新的变分框架，将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题，通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明，我们的方法在不同环境下都能产生紧密的置信区间。

Aug, 2020

正向和反向状态抽象用于策略离线评估

本研究旨在通过使用状态抽象来对关联性评估进行有效的离线算法评估，并通过构建基于观察到的 MDP 的时间反转 MDP 导出 Q 函数和边缘化重要性采样比率的充分条件，进而提出一种新颖的两步骤程序，将原始状态空间顺序投影到较小的空间，从而大大简化高基数引起的关联性评估的样本复杂度。

Jun, 2024

通过联合效应建模进行大动作空间的离线评估

本文提出了新的估计器 OffCEM，它基于连带效应模型（CEM），通过将重要性加权仅应用于动作池，通过基于模型的奖励估计解决了残余因果效应的问题。实验表明 OffCEM 估计器在 OPE 中具有显著的提升。

May, 2023