SCOPE-RL：一个用于离线强化学习和离线策略评估的 Python 库

Nov, 2023

SCOPE-RL：一个用于离线强化学习和离线策略评估的 Python 库

SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation

Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi, Kazuhide Nakata...

TL;DRSCOPE-RL 是一款面向离线强化学习（offline RL）、离策略评估（off-policy evaluation）和选择（selection）的全面开源 Python 软件，通过集成政策学习和评估等两个关键方面，提供了灵活和完整的离线 RL 和 OPE 过程的实现，其中特别注重 OPE 模块，提供了一系列 OPE 估计器和鲁棒的 OPE 评估协议。

Abstract

This paper introduces scope-rl, a comprehensive open-source Python software designed for offline reinforcement learning (offline RL), off-policy

scope-rl offline reinforcement learning off-policy evaluation ope modules ope estimators

发现论文，激发创造

强化学习离线策略评估的实证研究

通过实验基准和实证研究，我们提供了针对强化学习中的离线策略评估（OPE）的实验基准和实证研究，重点研究了实验设计的多样性以启用 OPE 方法的应力测试。我们提供了一个完整的基准套件，以研究不同属性对方法性能的相互作用，并将结果总结为实践指南。我们提供的 Caltech OPE 基准测试套件（COBS）是开源的，并邀请感兴趣的研究人员进一步贡献。

Nov, 2019

评估和基准化离策略评估的风险收益权衡

评估线下记录数据所使用的反事实政策的有效性，并通过基于财务投资组合评估的新指标 SharpeRatio@k 来衡量政策组合的风险回报权衡，该指标已被集成到开源软件 SCOPE-RL 中，实证研究对不同评估器和强化学习任务进行了全面的基准测试，并提出了几个对未来 OPE 研究有启示的有趣方向和建议。

Nov, 2023

强化学习离线策略评估中的近最优可证明一致收敛

该研究旨在解决强化学习中离线策略评估问题，通过同时评估策略类别中的所有策略，实现一致收敛，并获得了多种全局 / 局部策略类别的近乎最优误差界限。

Jul, 2020

离线学习的安全评估：我们准备好部署了吗？

提出了一个安全评估离线学习的框架，通过近似高置信度离策略评估（HCOPE）估计在学习期间的策略性能，以在真实环境中部署之前评估新学习的策略的性能表现。

Dec, 2022

离线强化学习的模型选择：医疗环境的实际考虑

通过离线强化学习中的策略评估，本研究提出了一种模型选择方法，使得在医疗保健中学习到的治疗策略更好地在实际环境中投入使用。在利用离线强化学习学习感染性休克患者的治疗策略的过程中，研究人员比较了不同的离线策略评估方式，并提出了一种简单的两阶段方法以平衡计算效率和排名准确性。

Jul, 2021

深度离线评估的基准测试

为了推动离线学习中的评估和选择复杂政策的发展，我们提供了一套用于基准测试的数据集和策略集，旨在提供一种标准化的进展度量方式，并对现有的算法进行评估。

Mar, 2021

自适应数据采集的增强学习离线策略评估

本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究，并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。

Jun, 2023

马尔可夫决策过程中的一致离线评估

提出了一种基于符合预测的 OPE 方法，可以在给定的一定置信水平下输出包含目标策略真实奖励的区间，并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移，并在保持相同置信水平的情况下，相对于现有方法降低区间长度。

Apr, 2023

RL-Scope：用于深度强化学习工作负载的跨栈性能分析

通过 RL-Scope 工具，我们发现深度强化学习训练中存在基本结构上的差异，相对于监督学习而言，其不易受到限制于 GPU；我们还观察到不同 ML 后端之间的运行时差异；同时，我们关注了 RL 算法和模拟器的性能比较，表明 on-policy 算法至少比 off-policy 算法具有 $3.5 imes$ 更多的模拟绑定。

Feb, 2021

离线策略评估方法（Off-Policy Evaluation）基于离线策略分类（Off-Policy Classification）

本文旨在解决深度强化学习领域中的模型选择问题，并提出一种基于 Q 函数作为决策函数的正无标记（PU）分类问题的度量方法来评估离线策略评估的性能，该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程，并且在一些任务上表现优于基线算法。

Jun, 2019