双重不均匀环境下的离线评估

Jun, 2023

Off-policy Evaluation in Doubly Inhomogeneous Environments

Zeyu Bian, Chengchun Shi, Zhengling Qi, Lan Wang

TL;DR本篇文章提出了一种支持离线强化学习策略评估的新框架，该框架通过提出一种动态因子模型来处理强化学习中的双不均性，并在该框架下开发了一种同时支持基于模型和无模型方法的策略评估方法。与现有方法相比，该方法不仅假设具有统计学意义，也表现出更好的性能。

Abstract

This work aims to study off-policy evaluation (OPE) under scenarios where two key reinforcement learning (RL) assumptions -- temporal stationarity and individual homogeneity are both violated. To handle the ``dou

off-policy evaluation reinforcement learning latent factor models model-based model-free

发现论文，激发创造

具有潜在混淆因素的无限时段强化学习中的离线评估

针对强化学习领域中的 Off-policy Evaluation 问题，本研究提出了一种基于无法观测到的干扰变量的无限时域 Markov 决策过程方法，并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法，从 Off-policy 数据中识别政策价值。

Jul, 2020

Off-policy Evaluation 的非渐进置信区间：原始和对偶界限

本文提出一种基于原始 - 对偶优化的算法，用于构建非渐进置信区间，该算法利用了 Feng 等人（2019 年）的核贝尔曼损失（KBL）和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式，明确展示了算法的优势。

Mar, 2021

用双重强化学习高效突破离线策略评估中的时序限制

本文研究了如何在强化学习中进行非策略评估 (off-policy evaluation)，当考虑马尔可夫和时间不变的结构时，给出了 OPE 的效率界限。我们开发了一种基于双重强化学习（DRL）的新估计器，利用我们推导出的高效影响函数来进行 OPE，并探讨了结构优化对 OPE 的性能提升。

Sep, 2019

强化学习离线策略评估中的近最优可证明一致收敛

该研究旨在解决强化学习中离线策略评估问题，通过同时评估策略类别中的所有策略，实现一致收敛，并获得了多种全局 / 局部策略类别的近乎最优误差界限。

Jul, 2020

在时间均匀、无奖励、任务不可知的情况下进行最优均匀 OPE 和基于模型的离线强化学习

本研究利用基于模型的方法研究了离线策略评估问题的统一框架，对于一些有充分理论支持的离线任务提供了最优学习方案，研究了统一收敛的统计上限，并在局部统一收敛方面建立了统一高效的分析工具。

May, 2021

线性函数逼近下的方差感知离线评估

本研究旨在通过使用值函数的方差信息提高离线策略评估中的样本效率，其中针对非时变线性马尔可夫决策过程（MDPs），提出了 VA-OPE 算法，使用值函数的方差对 Fitted Q-Iteration 中的 Bellman 残差进行重新加权，并且我们展示了我们的算法比最好已知的结果实现了更紧密的误差界限。我们对行为策略和目标策略之间的分布变化进行了细致的描述，而广泛的数值实验也支持了我们的理论。

Jun, 2021

基于协变量偏移的对外有效性的非策略评估与学习

该研究旨在探讨如何利用历史数据评估和训练新政策，避免协变量偏移的问题，并提出有效的估算器和比较其理论性质。

Feb, 2020

通过规则化的定向学习实现更高效的离线策略评估

本文介绍了基于因果推断的目标最大似然估计原理所提出的新型双重稳健的评估方法和多种方差减少技术，能够在多种强化学习环境和各种模型规范级别下比现有评估方法都能表现出更好的性能

Dec, 2019

离线策略评估方法（Off-Policy Evaluation）基于离线策略分类（Off-Policy Classification）

本文旨在解决深度强化学习领域中的模型选择问题，并提出一种基于 Q 函数作为决策函数的正无标记（PU）分类问题的度量方法来评估离线策略评估的性能，该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程，并且在一些任务上表现优于基线算法。

Jun, 2019

人类反馈的非策略评估

解决基于人类反馈信号的离线评估问题，引入了一种新的离线评估框架 ——OPEHF，通过发展一种基于环境知识的立体空间下的即时人类奖励重构方法，从而明显提高了对人类反馈信号的准确估计性能。

Oct, 2023