基于协变量偏移的对外有效性的非策略评估与学习
本文介绍了基于因果推断的目标最大似然估计原理所提出的新型双重稳健的评估方法和多种方差减少技术,能够在多种强化学习环境和各种模型规范级别下比现有评估方法都能表现出更好的性能
Dec, 2019
针对强化学习领域中的 Off-policy Evaluation 问题,本研究提出了一种基于无法观测到的干扰变量的无限时域 Markov 决策过程方法,并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法,从 Off-policy 数据中识别政策价值。
Jul, 2020
本文提出一种基于原始 - 对偶优化的算法,用于构建非渐进置信区间,该算法利用了 Feng 等人(2019 年)的核贝尔曼损失(KBL)和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式,明确展示了算法的优势。
Mar, 2021
本文提出一个新的变分框架,将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题,通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明,我们的方法在不同环境下都能产生紧密的置信区间。
Aug, 2020
本研究提出了一种基于领域知识的健壮离线评估框架 ROPE,具有针对特定环境特征进行偏移的特点,从而能更准确地评估政策的效用,并且通过医疗领域的合成和真实数据集的实验表明,该方法能够准确地捕捉现实情况下的偏移,并能得出更乐观的政策评估结果。
Sep, 2022
提出了一种基于符合预测的 OPE 方法,可以在给定的一定置信水平下输出包含目标策略真实奖励的区间,并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移,并在保持相同置信水平的情况下,相对于现有方法降低区间长度。
Apr, 2023
本篇文章提出了一种支持离线强化学习策略评估的新框架,该框架通过提出一种动态因子模型来处理强化学习中的双不均性,并在该框架下开发了一种同时支持基于模型和无模型方法的策略评估方法。与现有方法相比,该方法不仅假设具有统计学意义,也表现出更好的性能。
Jun, 2023
以离线数据为基础,离策略为核心框架,使用逆概率估计和其扩展方法提出 Delta-OPE 方法,并引入优化效率的方差最优加性控制变量,实验结果表明这些方法显著提高了评估和学习的性能。
May, 2024
本研究首次探讨了针对真实数据的估计器选择问题,并提出了一种自适应的估计器选择方法,该方法利用可用日志数据适当地子采样并构建伪策略,显着提高了估计器的准确性。
Nov, 2022
本文提出了用于处理全支撑和有缺陷支撑的日志策略,并证明其在样本量增加时预测收敛于反事实策略的真实表现的 off-policy evaluation 方法,并将其应用于优化在线平台的 coupon targeting policies。
Dec, 2022