基于序列建模的强化学习离策略评估中使用双重策略估计的统计高效方差缩减

Aug, 2023

基于序列建模的强化学习离策略评估中使用双重策略估计的统计高效方差缩减

Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning

PDF

Hanhan Zhou, Tian Lan, Vaneet Aggarwal

TL;DR提出了一种利用线下序列建模和线下强化学习相结合的双策略估计 (DPE) 的强化学习算法，具有统计上证明的方差降低性质，应用于多个 OpenAI Gym 中的任务，并在 D4RL 基准测试中取得了性能改进，优于基线方法，展示了序列建模强化学习中双策略估计的优势。

Abstract

offline reinforcement learning aims to utilize datasets of previously gathered environment-action interaction records to learn a policy without access to the real environment. Recent work has shown that offline reinforcement learning can be formulated as a →

offline reinforcement learning sequence modeling supervised learning policy bias double policy estimation

发现论文，激发创造

通过双方差降低近似最优离线强化学习

本文提出了一种新的算法 OPDVR 用于离线强化学习中的方差缩减，其能够证明在离线数据情况下，在有限时间内获得最优策略，同时在某些环境设定下具有最优样本复杂度，为离线强化学习的发展提供了新方案。

Feb, 2021

强化学习的双重稳健性离线价值评估

研究了强化学习中 off-policy value evaluation 的问题，提出了一种将 doubly robust estimator 用于序列决策问题的方法，可以保证无偏差并且方差较低，在多个基准问题中都具有较高的准确度，并且可以作为安全策略改进的子程序。

Nov, 2015

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

马尔科夫决策过程中的双重强化学习，用于高效的离线策略评估

这篇论文讲述了在马尔科夫决策过程中 (off-policy evaluation) 基于无记忆存储的状态、行动和奖励的情况下，使用交叉折叠法来计算 $q$-functions 和边际密度比率的双重强化学习 (DRL) 的有效性研究。研究表明，在第四次方根率下估算两个因素时，DRL 具有高效性，并且当仅一个因素一致时也具有双重正确性。

Aug, 2019

更加健壮的双重偏差离线评估

本文针对强化学习中的离策略评估问题，提出了一种名为 MRDR 的更加鲁棒的 Doubly Robust 估计方法，该方法通过最小化 DR 估计器的方差来学习模型参数，并在上下文决策和强化学习基准问题中进行评估，证明了其强一致性和渐进最优性。

Feb, 2018

自适应数据采集的增强学习离线策略评估

本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究，并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。

Jun, 2023

半离线策略评估的反事实增强重要性采样

在高风险领域应用强化学习中，使用观察数据进行定量和定性评估可以帮助从业者了解新策略的泛化性能。然而，这种离线数据评估受到困限，因为离线数据可能无法反映由新策略应用导致的分布偏移。本研究中，我们提出了一种半离线评估框架，作为离线和在线评估之间的中间步骤，其中人工用户提供未观察到的反事实轨迹的注释。我们设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器，其能够纳入反事实注释而不引入额外偏差。通过理论分析，我们展示了该方法在减少偏差和方差方面相对于标准重要性采样估计器的潜在优势。在一系列概念验证实验中，涉及赌博机和医疗模拟器，我们证明了我们的方法优于纯离线重要性采样估计器，并且对于不完美的注释具有鲁棒性。结合人性化的注释收集策略，我们的框架可以实现强化学习在高风险领域的应用。

Oct, 2023

主动离线策略选择

本文提出了一种新颖的顺序决策方法 —— 主动离线策略选择，该方法结合了在线交互和记录数据，利用基于贝叶斯优化和策略相似性的内核函数，通过多个基准测试，包括实际机器人应用，证明该方法改进了最新的离线策略评估估计和纯在线策略评估，解决了缺乏在线交互数据的策略选择问题。

Jun, 2021

无需离线策略评估的离线强化学习

本文探讨了离线强化学习领域中的一个策略改进方法，使用 on-policy Q 估计的行为策略，通过一步有限制 / 正则化的策略改进，能在 D4RL 基准测试中表现优于迭代算法。我们认为，迭代算法的性能较差是由于进行 off-policy 评估所固有的高方差以及相对较差的行为策略等原因所导致的。

Jun, 2021

用双重强化学习高效突破离线策略评估中的时序限制

本文研究了如何在强化学习中进行非策略评估 (off-policy evaluation)，当考虑马尔可夫和时间不变的结构时，给出了 OPE 的效率界限。我们开发了一种基于双重强化学习（DRL）的新估计器，利用我们推导出的高效影响函数来进行 OPE，并探讨了结构优化对 OPE 的性能提升。

Sep, 2019