强化学习离线策略评估中的近最优可证明一致收敛

Jul, 2020

强化学习离线策略评估中的近最优可证明一致收敛

Near-Optimal Provable Uniform Convergence in Offline Policy Evaluation for Reinforcement Learning

Ming Yin, Yu Bai, Yu-Xiang Wang

TL;DR该研究旨在解决强化学习中离线策略评估问题，通过同时评估策略类别中的所有策略，实现一致收敛，并获得了多种全局 / 局部策略类别的近乎最优误差界限。

Abstract

The problem of offline policy evaluation (OPE) in reinforcement learning (RL) is a critical step towards applying RL in real-life applications. Existing work on OPE mostly focus on evaluating a fixed target polic

offline policy evaluation reinforcement learning uniform convergence policy class optimal error bounds

发现论文，激发创造

在时间均匀、无奖励、任务不可知的情况下进行最优均匀 OPE 和基于模型的离线强化学习

本研究利用基于模型的方法研究了离线策略评估问题的统一框架，对于一些有充分理论支持的离线任务提供了最优学习方案，研究了统一收敛的统计上限，并在局部统一收敛方面建立了统一高效的分析工具。

May, 2021

马尔可夫决策过程中的一致离线评估

提出了一种基于符合预测的 OPE 方法，可以在给定的一定置信水平下输出包含目标策略真实奖励的区间，并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移，并在保持相同置信水平的情况下，相对于现有方法降低区间长度。

Apr, 2023

具有潜在混淆因素的无限时段强化学习中的离线评估

针对强化学习领域中的 Off-policy Evaluation 问题，本研究提出了一种基于无法观测到的干扰变量的无限时域 Markov 决策过程方法，并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法，从 Off-policy 数据中识别政策价值。

Jul, 2020

自适应数据采集的增强学习离线策略评估

本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究，并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。

Jun, 2023

双重不均匀环境下的离线评估

本篇文章提出了一种支持离线强化学习策略评估的新框架，该框架通过提出一种动态因子模型来处理强化学习中的双不均性，并在该框架下开发了一种同时支持基于模型和无模型方法的策略评估方法。与现有方法相比，该方法不仅假设具有统计学意义，也表现出更好的性能。

Jun, 2023

Off-policy Evaluation 的非渐进置信区间：原始和对偶界限

本文提出一种基于原始 - 对偶优化的算法，用于构建非渐进置信区间，该算法利用了 Feng 等人（2019 年）的核贝尔曼损失（KBL）和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式，明确展示了算法的优势。

Mar, 2021

通过规则化的定向学习实现更高效的离线策略评估

本文介绍了基于因果推断的目标最大似然估计原理所提出的新型双重稳健的评估方法和多种方差减少技术，能够在多种强化学习环境和各种模型规范级别下比现有评估方法都能表现出更好的性能

Dec, 2019

用双重强化学习高效突破离线策略评估中的时序限制

本文研究了如何在强化学习中进行非策略评估 (off-policy evaluation)，当考虑马尔可夫和时间不变的结构时，给出了 OPE 的效率界限。我们开发了一种基于双重强化学习（DRL）的新估计器，利用我们推导出的高效影响函数来进行 OPE，并探讨了结构优化对 OPE 的性能提升。

Sep, 2019

离线策略评估方法（Off-Policy Evaluation）基于离线策略分类（Off-Policy Classification）

本文旨在解决深度强化学习领域中的模型选择问题，并提出一种基于 Q 函数作为决策函数的正无标记（PU）分类问题的度量方法来评估离线策略评估的性能，该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程，并且在一些任务上表现优于基线算法。

Jun, 2019

强化学习离线策略评估的实证研究

通过实验基准和实证研究，我们提供了针对强化学习中的离线策略评估（OPE）的实验基准和实证研究，重点研究了实验设计的多样性以启用 OPE 方法的应力测试。我们提供了一个完整的基准套件，以研究不同属性对方法性能的相互作用，并将结果总结为实践指南。我们提供的 Caltech OPE 基准测试套件（COBS）是开源的，并邀请感兴趣的研究人员进一步贡献。

Nov, 2019