提出一种基于边际化重要性权重的新 Off-Policy Evaluation(OPE)估算器,旨在解决现有 OPE 估算器在动作数量很大时出现的极端偏差和方差问题,能够为许多应用程序,从推荐系统到语言模型中提供可靠的 OPE,并分析了行动嵌入在传统估计量之上提供统计收益的条件。
Feb, 2022
本研究提出了一种基于状态抽象的离线策略评估方法,采用较低维的状态空间可以降低重要性采样中方差的影响,提高评估准确性和鲁棒性。
Dec, 2022
提出了平衡离线策略评估 (B-OPE) 的通用方法,通过将估计权重的风险最小化,减小了平衡不匹配的问题,其二分类解决方案可适用于所有操作类型,并且易于超参数调整,实验证明其在离线策略评估中得到应用。
Jun, 2019
本文旨在解决深度强化学习领域中的模型选择问题,并提出一种基于 Q 函数作为决策函数的正无标记(PU)分类问题的度量方法来评估离线策略评估的性能,该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程,并且在一些任务上表现优于基线算法。
本研究提出了一种使用训练好的奖励模型输出来定义 MIPS 动作嵌入的方法,该方法可以减少 IPS 在大规模动作空间中的方差,并扩展了 MIPS 的应用范围,在合成和实际数据上都优于预定义的嵌入和标准基线模型,不需要奖励模型类的假设,并支持使用其他动作信息来进一步提高估计精度。
May, 2023
本研究首次探讨了针对真实数据的估计器选择问题,并提出了一种自适应的估计器选择方法,该方法利用可用日志数据适当地子采样并构建伪策略,显着提高了估计器的准确性。
Nov, 2022
自动数据驱动的离策评估估计器选择方法,基于机器学习模型在合成任务中预测最佳估计器,能够在多个真实世界数据集上选择更好的估计器并显著降低计算成本。
Jun, 2024
本文提出一个新的变分框架,将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题,通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明,我们的方法在不同环境下都能产生紧密的置信区间。
Aug, 2020
本研究旨在通过使用状态抽象来对关联性评估进行有效的离线算法评估,并通过构建基于观察到的 MDP 的时间反转 MDP 导出 Q 函数和边缘化重要性采样比率的充分条件,进而提出一种新颖的两步骤程序,将原始状态空间顺序投影到较小的空间,从而大大简化高基数引起的关联性评估的样本复杂度。
本文提出了新的估计器 OffCEM,它基于连带效应模型(CEM),通过将重要性加权仅应用于动作池,通过基于模型的奖励估计解决了残余因果效应的问题。实验表明 OffCEM 估计器在 OPE 中具有显著的提升。