本研究提出了一种基于领域知识的健壮离线评估框架 ROPE,具有针对特定环境特征进行偏移的特点,从而能更准确地评估政策的效用,并且通过医疗领域的合成和真实数据集的实验表明,该方法能够准确地捕捉现实情况下的偏移,并能得出更乐观的政策评估结果。
Sep, 2022
使用深度神经网络通过学习值函数来逼近离线策略评估,从人类偏好数据中获取样本效率,而不受高数据环境维度束缚。
Oct, 2023
本文旨在解决深度强化学习领域中的模型选择问题,并提出一种基于 Q 函数作为决策函数的正无标记(PU)分类问题的度量方法来评估离线策略评估的性能,该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程,并且在一些任务上表现优于基线算法。
Jun, 2019
本文提出了一种混合人工智能系统的方法,该方法可以通过关注数据中对 OPE 估计产生很大影响的观察点,并制定一组选择规则,使领域专家能够分析 OPE 估计的有效性。该方法可以应用在医学模拟和真实世界中的重症监护数据中,可以用于识别评估过程中的限制并使评估更加稳健。
Feb, 2020
针对强化学习领域中的 Off-policy Evaluation 问题,本研究提出了一种基于无法观测到的干扰变量的无限时域 Markov 决策过程方法,并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法,从 Off-policy 数据中识别政策价值。
Jul, 2020
通过实验基准和实证研究,我们提供了针对强化学习中的离线策略评估(OPE)的实验基准和实证研究,重点研究了实验设计的多样性以启用 OPE 方法的应力测试。我们提供了一个完整的基准套件,以研究不同属性对方法性能的相互作用,并将结果总结为实践指南。我们提供的 Caltech OPE 基准测试套件(COBS)是开源的,并邀请感兴趣的研究人员进一步贡献。
Nov, 2019
本篇文章提出了一种支持离线强化学习策略评估的新框架,该框架通过提出一种动态因子模型来处理强化学习中的双不均性,并在该框架下开发了一种同时支持基于模型和无模型方法的策略评估方法。与现有方法相比,该方法不仅假设具有统计学意义,也表现出更好的性能。
Jun, 2023
该研究旨在解决强化学习中离线策略评估问题,通过同时评估策略类别中的所有策略,实现一致收敛,并获得了多种全局 / 局部策略类别的近乎最优误差界限。
为了推动离线学习中的评估和选择复杂政策的发展,我们提供了一套用于基准测试的数据集和策略集,旨在提供一种标准化的进展度量方式,并对现有的算法进行评估。
Mar, 2021
提出了一种基于符合预测的 OPE 方法,可以在给定的一定置信水平下输出包含目标策略真实奖励的区间,并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移,并在保持相同置信水平的情况下,相对于现有方法降低区间长度。
Apr, 2023