在时间均匀、无奖励、任务不可知的情况下进行最优均匀 OPE 和基于模型的离线强化学习
该研究旨在解决强化学习中离线策略评估问题,通过同时评估策略类别中的所有策略,实现一致收敛,并获得了多种全局 / 局部策略类别的近乎最优误差界限。
Jul, 2020
本篇文章提出了一种支持离线强化学习策略评估的新框架,该框架通过提出一种动态因子模型来处理强化学习中的双不均性,并在该框架下开发了一种同时支持基于模型和无模型方法的策略评估方法。与现有方法相比,该方法不仅假设具有统计学意义,也表现出更好的性能。
Jun, 2023
本文提出一种基于原始 - 对偶优化的算法,用于构建非渐进置信区间,该算法利用了 Feng 等人(2019 年)的核贝尔曼损失(KBL)和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式,明确展示了算法的优势。
Mar, 2021
本文旨在解决深度强化学习领域中的模型选择问题,并提出一种基于 Q 函数作为决策函数的正无标记(PU)分类问题的度量方法来评估离线策略评估的性能,该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程,并且在一些任务上表现优于基线算法。
Jun, 2019
本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究,并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。
Jun, 2023
本文研究了如何在强化学习中进行非策略评估 (off-policy evaluation),当考虑马尔可夫和时间不变的结构时,给出了 OPE 的效率界限。我们开发了一种基于双重强化学习(DRL)的新估计器,利用我们推导出的高效影响函数来进行 OPE,并探讨了结构优化对 OPE 的性能提升。
Sep, 2019
针对强化学习领域中的 Off-policy Evaluation 问题,本研究提出了一种基于无法观测到的干扰变量的无限时域 Markov 决策过程方法,并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法,从 Off-policy 数据中识别政策价值。
Jul, 2020
本研究提出了一种基于较小方差的边缘重要性抽样 (MIS) 的算法,用以解决 RL 中 long horizon MDP 的 Off-policy evaluation (OPE) 问题,并表现出在多个环境中的良好表现。
Jun, 2019
提出了一种基于符合预测的 OPE 方法,可以在给定的一定置信水平下输出包含目标策略真实奖励的区间,并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移,并在保持相同置信水平的情况下,相对于现有方法降低区间长度。
Apr, 2023
这篇论文讲述了在马尔科夫决策过程中 (off-policy evaluation) 基于无记忆存储的状态、行动和奖励的情况下,使用交叉折叠法来计算 $q$-functions 和边际密度比率的双重强化学习 (DRL) 的有效性研究。研究表明,在第四次方根率下估算两个因素时,DRL 具有高效性,并且当仅一个因素一致时也具有双重正确性。
Aug, 2019