$K$ 最临近重采样在随机控制中的非策略评估

Jun, 2023

$K$ 最临近重采样在随机控制中的非策略评估

$K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control

Michael Giegrich, Roel Oomen, Christoph Reisinger

TL;DR该论文提出了一种新的 K 最近邻重采样程序，用于在具有连续状态 - 动作空间和系统固有随机性的环境中，通过模拟轨迹来解决反事实估计问题，该算法不需要优化，可以通过基于树的最近邻搜索和并行化实现，特别适用于随机控制环境。

Abstract

We propose a novel $K$-nearest neighbor resampling procedure for estimating the performance of a policy from historical data containing realized episodes of a decision process generated under a different policy. We focus on feedback policies that depend deterministically on the current state in environments with continuous state-action spaces and system-inhe

k-nearest neighbor off-policy evaluation stochastic control monte carlo methods counterfactual estimation

发现论文，激发创造

使用核贝尔曼统计量进行负责任离线策略评估

本文提出一个新的变分框架，将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题，通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明，我们的方法在不同环境下都能产生紧密的置信区间。

Aug, 2020

马尔可夫决策过程中的一致离线评估

提出了一种基于符合预测的 OPE 方法，可以在给定的一定置信水平下输出包含目标策略真实奖励的区间，并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移，并在保持相同置信水平的情况下，相对于现有方法降低区间长度。

Apr, 2023

核度量学习：用于确定性强化学习策略的样本内离策略评估

在连续动作空间中，通过使用优化的核度量，通过样本内学习的离策略评估可以显著提高准确性。

May, 2024

基于边际化重要性采样的强化学习最优离线评估

本研究提出了一种基于较小方差的边缘重要性抽样 (MIS) 的算法，用以解决 RL 中 long horizon MDP 的 Off-policy evaluation (OPE) 问题，并表现出在多个环境中的良好表现。

Jun, 2019

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

基于状态 - 动作相似性的离线策略评估

该研究通过引入一个 OPE-tailored 的状态 - 动作行为相似性度量并使用固定数据集来学习该度量以增加数据效率，证明了这种度量可以限制导致的 OPE 估计误差，并通过实证研究证明这种学习表示方法相对于其他 OPE-based 表示学习方法在具有挑战性的 OPE 任务中提高了 FQE 的数据效率并降低了 OPE 误差，该方法还可以在不同分布变化时显著减轻 FQE 的发散问题。

Oct, 2023

Off-policy Evaluation 的非渐进置信区间：原始和对偶界限

本文提出一种基于原始 - 对偶优化的算法，用于构建非渐进置信区间，该算法利用了 Feng 等人（2019 年）的核贝尔曼损失（KBL）和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式，明确展示了算法的优势。

Mar, 2021

线性函数逼近下的方差感知离线评估

本研究旨在通过使用值函数的方差信息提高离线策略评估中的样本效率，其中针对非时变线性马尔可夫决策过程（MDPs），提出了 VA-OPE 算法，使用值函数的方差对 Fitted Q-Iteration 中的 Bellman 残差进行重新加权，并且我们展示了我们的算法比最好已知的结果实现了更紧密的误差界限。我们对行为策略和目标策略之间的分布变化进行了细致的描述，而广泛的数值实验也支持了我们的理论。

Jun, 2021

$Δ ext {-}{m OPE}$：使用一对策略进行离策略估计

以离线数据为基础，离策略为核心框架，使用逆概率估计和其扩展方法提出 Delta-OPE 方法，并引入优化效率的方差最优加性控制变量，实验结果表明这些方法显著提高了评估和学习的性能。

May, 2024

离线政策评估中的行为策略估计：校准很重要

探讨在行为策略未知的情况下，使用离线策略评估 (OPE) 来估计行为策略的问题。通过一系列实证研究，我们展示了精度如何取决于行为策略模型的校准，并展示了如何使用简单、非参数的 k 最近邻模型来获得更好的校准，并可用于优秀的基于重要性采样的 OPE 估计。

Jul, 2018