强化学习中有解释的离线策略评估：突出具有影响力的状态转移

ICMLFeb, 2020

强化学习中有解释的离线策略评估：突出具有影响力的状态转移

Interpretable Off-Policy Evaluation in Reinforcement Learning by Highlighting Influential Transitions

Omer Gottesman, Joseph Futoma, Yao Liu, Sonali Parbhoo, Leo Anthony Celi...

TL;DR本文提出了一种混合人工智能系统的方法，该方法可以通过关注数据中对 OPE 估计产生很大影响的观察点，并制定一组选择规则，使领域专家能够分析 OPE 估计的有效性。该方法可以应用在医学模拟和真实世界中的重症监护数据中，可以用于识别评估过程中的限制并使评估更加稳健。

Abstract

off-policy evaluation in reinforcement learning offers the chance of using observational data to improve future outcomes in domains such as healthcare and education, but safe deployment in high stakes settings re

off-policy evaluation observational data hybrid human-ai system influence function evaluation robustness

发现论文，激发创造

半离线策略评估的反事实增强重要性采样

在高风险领域应用强化学习中，使用观察数据进行定量和定性评估可以帮助从业者了解新策略的泛化性能。然而，这种离线数据评估受到困限，因为离线数据可能无法反映由新策略应用导致的分布偏移。本研究中，我们提出了一种半离线评估框架，作为离线和在线评估之间的中间步骤，其中人工用户提供未观察到的反事实轨迹的注释。我们设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器，其能够纳入反事实注释而不引入额外偏差。通过理论分析，我们展示了该方法在减少偏差和方差方面相对于标准重要性采样估计器的潜在优势。在一系列概念验证实验中，涉及赌博机和医疗模拟器，我们证明了我们的方法优于纯离线重要性采样估计器，并且对于不完美的注释具有鲁棒性。结合人性化的注释收集策略，我们的框架可以实现强化学习在高风险领域的应用。

Oct, 2023

马尔可夫决策过程中的一致离线评估

提出了一种基于符合预测的 OPE 方法，可以在给定的一定置信水平下输出包含目标策略真实奖励的区间，并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移，并在保持相同置信水平的情况下，相对于现有方法降低区间长度。

Apr, 2023

离线策略评估方法（Off-Policy Evaluation）基于离线策略分类（Off-Policy Classification）

本文旨在解决深度强化学习领域中的模型选择问题，并提出一种基于 Q 函数作为决策函数的正无标记（PU）分类问题的度量方法来评估离线策略评估的性能，该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程，并且在一些任务上表现优于基线算法。

Jun, 2019

通过人工输入实现鲁棒的离策略评估

本研究提出了一种基于领域知识的健壮离线评估框架 ROPE，具有针对特定环境特征进行偏移的特点，从而能更准确地评估政策的效用，并且通过医疗领域的合成和真实数据集的实验表明，该方法能够准确地捕捉现实情况下的偏移，并能得出更乐观的政策评估结果。

Sep, 2022

具有潜在混淆因素的无限时段强化学习中的离线评估

针对强化学习领域中的 Off-policy Evaluation 问题，本研究提出了一种基于无法观测到的干扰变量的无限时域 Markov 决策过程方法，并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法，从 Off-policy 数据中识别政策价值。

Jul, 2020

人类反馈的非策略评估

解决基于人类反馈信号的离线评估问题，引入了一种新的离线评估框架 ——OPEHF，通过发展一种基于环境知识的立体空间下的即时人类奖励重构方法，从而明显提高了对人类反馈信号的准确估计性能。

Oct, 2023

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

强化学习离线策略评估的实证研究

通过实验基准和实证研究，我们提供了针对强化学习中的离线策略评估（OPE）的实验基准和实证研究，重点研究了实验设计的多样性以启用 OPE 方法的应力测试。我们提供了一个完整的基准套件，以研究不同属性对方法性能的相互作用，并将结果总结为实践指南。我们提供的 Caltech OPE 基准测试套件（COBS）是开源的，并邀请感兴趣的研究人员进一步贡献。

Nov, 2019

基于偏好的非参数离策略深度网络评估的样本复杂性

使用深度神经网络通过学习值函数来逼近离线策略评估，从人类偏好数据中获取样本效率，而不受高数据环境维度束缚。

Oct, 2023

Off-policy Evaluation 的非渐进置信区间：原始和对偶界限

本文提出一种基于原始 - 对偶优化的算法，用于构建非渐进置信区间，该算法利用了 Feng 等人（2019 年）的核贝尔曼损失（KBL）和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式，明确展示了算法的优势。

Mar, 2021