基于状态 - 动作相似性的离线策略评估

Oct, 2023

基于状态 - 动作相似性的离线策略评估

State-Action Similarity-Based Representations for Off-Policy Evaluation

Brahma S. Pavse, Josiah P. Hanna

TL;DR该研究通过引入一个 OPE-tailored 的状态 - 动作行为相似性度量并使用固定数据集来学习该度量以增加数据效率，证明了这种度量可以限制导致的 OPE 估计误差，并通过实证研究证明这种学习表示方法相对于其他 OPE-based 表示学习方法在具有挑战性的 OPE 任务中提高了 FQE 的数据效率并降低了 OPE 误差，该方法还可以在不同分布变化时显著减轻 FQE 的发散问题。

Abstract

In reinforcement learning, off-policy evaluation (OPE) is the problem of estimating the expected return of an evaluation policy given a fixed dataset that was collected by running one or more different policies.

reinforcement learning off-policy evaluation fitted q-evaluation data-efficiency state-action similarity metric

发现论文，激发创造

离线策略评估方法（Off-Policy Evaluation）基于离线策略分类（Off-Policy Classification）

本文旨在解决深度强化学习领域中的模型选择问题，并提出一种基于 Q 函数作为决策函数的正无标记（PU）分类问题的度量方法来评估离线策略评估的性能，该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程，并且在一些任务上表现优于基线算法。

Jun, 2019

正向和反向状态抽象用于策略离线评估

本研究旨在通过使用状态抽象来对关联性评估进行有效的离线算法评估，并通过构建基于观察到的 MDP 的时间反转 MDP 导出 Q 函数和边缘化重要性采样比率的充分条件，进而提出一种新颖的两步骤程序，将原始状态空间顺序投影到较小的空间，从而大大简化高基数引起的关联性评估的样本复杂度。

Jun, 2024

使用核贝尔曼统计量进行负责任离线策略评估

本文提出一个新的变分框架，将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题，通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明，我们的方法在不同环境下都能产生紧密的置信区间。

Aug, 2020

线性函数逼近下的方差感知离线评估

本研究旨在通过使用值函数的方差信息提高离线策略评估中的样本效率，其中针对非时变线性马尔可夫决策过程（MDPs），提出了 VA-OPE 算法，使用值函数的方差对 Fitted Q-Iteration 中的 Bellman 残差进行重新加权，并且我们展示了我们的算法比最好已知的结果实现了更紧密的误差界限。我们对行为策略和目标策略之间的分布变化进行了细致的描述，而广泛的数值实验也支持了我们的理论。

Jun, 2021

马尔可夫决策过程中的一致离线评估

提出了一种基于符合预测的 OPE 方法，可以在给定的一定置信水平下输出包含目标策略真实奖励的区间，并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移，并在保持相同置信水平的情况下，相对于现有方法降低区间长度。

Apr, 2023

应对挑战环境中机器人探索的在线自适应无导数评估

该论文介绍了一种基于状态价值函数、离线蒙特卡罗训练和基于传感器信息的内在奖励函数的机器人探索方法，该方法能够更好地预测未来状态的价值以更好地指导机器人探索，在挑战性的地下和城市环境中首次应用于真实世界数据集中。

Apr, 2022

具有潜在混淆因素的无限时段强化学习中的离线评估

针对强化学习领域中的 Off-policy Evaluation 问题，本研究提出了一种基于无法观测到的干扰变量的无限时域 Markov 决策过程方法，并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法，从 Off-policy 数据中识别政策价值。

Jul, 2020

学习 Bellman 完整表示以进行离线策略评估

该研究提出了一种名为 “BCRL” 的算法，用于学习线性 Bellman 完备的表示，并用于离线策略评估，同时在图像基础的连续控制任务中表现出较好的性能。

Jul, 2022

通过状态抽象将边缘重要抽样扩展到高维状态空间

本研究提出了一种基于状态抽象的离线策略评估方法，采用较低维的状态空间可以降低重要性采样中方差的影响，提高评估准确性和鲁棒性。

Dec, 2022

马尔科夫决策过程中的双重强化学习，用于高效的离线策略评估

这篇论文讲述了在马尔科夫决策过程中 (off-policy evaluation) 基于无记忆存储的状态、行动和奖励的情况下，使用交叉折叠法来计算 $q$-functions 和边际密度比率的双重强化学习 (DRL) 的有效性研究。研究表明，在第四次方根率下估算两个因素时，DRL 具有高效性，并且当仅一个因素一致时也具有双重正确性。

Aug, 2019