监督离线排序

ICMLJul, 2021

Supervised Off-Policy Ranking

Yue Jin, Yue Zhang, Tao Qin, Xudong Zhang, Jian Yuan...

TL;DR本研究提出了一种监督式非政策排名方法，利用离线政策数据和已知性能的政策对一组目标政策进行排名，并通过一个基于层次 Transformer 的政策得分模型来实现。实验证明，这种方法在排名相关性、遗憾值和稳定性等指标上优于基准方法。

Abstract

off-policy evaluation (OPE) is to evaluate a target policy with data generated by other policies. Most previous OPE methods focus on precisely estimating the true performance of a policy. We observe that in many applications, (1) the end goal of OPE is to compare two or multiple candid

off-policy evaluation supervised off-policy ranking policy scoring model transformer model policy performance

发现论文，激发创造

深度离线评估的基准测试

为了推动离线学习中的评估和选择复杂政策的发展，我们提供了一套用于基准测试的数据集和策略集，旨在提供一种标准化的进展度量方式，并对现有的算法进行评估。

Mar, 2021

离线策略评估方法（Off-Policy Evaluation）基于离线策略分类（Off-Policy Classification）

本文旨在解决深度强化学习领域中的模型选择问题，并提出一种基于 Q 函数作为决策函数的正无标记（PU）分类问题的度量方法来评估离线策略评估的性能，该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程，并且在一些任务上表现优于基线算法。

Jun, 2019

强化学习离线策略评估的实证研究

通过实验基准和实证研究，我们提供了针对强化学习中的离线策略评估（OPE）的实验基准和实证研究，重点研究了实验设计的多样性以启用 OPE 方法的应力测试。我们提供了一个完整的基准套件，以研究不同属性对方法性能的相互作用，并将结果总结为实践指南。我们提供的 Caltech OPE 基准测试套件（COBS）是开源的，并邀请感兴趣的研究人员进一步贡献。

Nov, 2019

AutoOPE：自动离策择估计器选择

自动数据驱动的离策评估估计器选择方法，基于机器学习模型在合成任务中预测最佳估计器，能够在多个真实世界数据集上选择更好的估计器并显著降低计算成本。

Jun, 2024

针对离线策略评估的策略自适应估计器选择

本研究首次探讨了针对真实数据的估计器选择问题，并提出了一种自适应的估计器选择方法，该方法利用可用日志数据适当地子采样并构建伪策略，显着提高了估计器的准确性。

Nov, 2022

通过规则化的定向学习实现更高效的离线策略评估

本文介绍了基于因果推断的目标最大似然估计原理所提出的新型双重稳健的评估方法和多种方差减少技术，能够在多种强化学习环境和各种模型规范级别下比现有评估方法都能表现出更好的性能

Dec, 2019

马尔可夫决策过程中的一致离线评估

提出了一种基于符合预测的 OPE 方法，可以在给定的一定置信水平下输出包含目标策略真实奖励的区间，并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移，并在保持相同置信水平的情况下，相对于现有方法降低区间长度。

Apr, 2023

评估和基准化离策略评估的风险收益权衡

评估线下记录数据所使用的反事实政策的有效性，并通过基于财务投资组合评估的新指标 SharpeRatio@k 来衡量政策组合的风险回报权衡，该指标已被集成到开源软件 SCOPE-RL 中，实证研究对不同评估器和强化学习任务进行了全面的基准测试，并提出了几个对未来 OPE 研究有启示的有趣方向和建议。

Nov, 2023

基于级联行为模型的排序策略双重稳健离线评估

提出了一种新的基于级联假设的有偏差 - 无方差权衡评估器来评估推荐系统中的排名策略，在综合合成和真实数据实验中优于现有评估器。

Feb, 2022

具有通用数据生成策略的反事实学习

本文提出了用于处理全支撑和有缺陷支撑的日志策略，并证明其在样本量增加时预测收敛于反事实策略的真实表现的 off-policy evaluation 方法，并将其应用于优化在线平台的 coupon targeting policies。

Dec, 2022