基于悲观模型的部分覆盖离线强化学习

Jul, 2021

基于悲观模型的部分覆盖离线强化学习

Pessimistic Model-based Offline RL: PAC Bounds and Posterior Sampling under Partial Coverage

Masatoshi Uehara, Wen Sun

TL;DR研究在线学习中常见的数据不全覆盖情况，提出Constrained Pessimistic Policy Optimization (CPPO)算法，基于模型类别的限制来表示悲观情况，算法可以在数据不全覆盖的情况下具有PAC保证。

Abstract

We study model-based offline reinforcement learning with general function approximation. We present an algorithm named Constrained Pessimistic Policy Optimization (CPPO) which leverages a general function class a

发现论文，激发创造

MOReL：基于模型的离线强化学习

本研究提出了基于模型的离线强化学习算法 MOReL，具有模块化设计，可以用于模型生成、不确定性估计、规划等领域，实验结果表明，MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。

May, 2020

悲观策略在离线强化学习中能被证明是高效的吗？

本文提出了一种悲观的价值迭代算法（PEVI），它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题，并在泛化情况下对其次优性建立了数据相关的上限。

Dec, 2020

悲观引导的不确定性驱动离线强化学习

本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL)，它通过引入一种Q函数的不确定度来量化不确定性，并以此进行悲观更新，以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明，相比现有算法，PBRL具有更好的性能表现。

Feb, 2022

离线强化学习的悲观Q学习：朝着最优样本复杂性的方向

本文研究了离线强化学习的一个悲观策略Q-learning，针对有限时间的马尔科夫决策过程，通过单一策略密度函数的集中性假设，对其样本复杂度进行了表征，并提出了一种方差减小的悲观Q-learning算法来达到接近最优的样本复杂度。研究结果表明，在离线强化学习中，结合悲观策略和方差减小的模型无关型算法能够提高效率。

Feb, 2022

面对混淆因素的悲观主义：部分可观察马尔可夫决策过程中可证明高效的离线强化学习

研究通过行为策略收集的数据集来学习优化策略的离线强化学习算法，并针对潜在状态的影响所产生的混淆偏差和最优策略与行为策略之间的分布转换问题，提出了代理变量悲观策略优化（P3O）算法。

May, 2022

基于模型的离线强化学习中的悲观情况调节动态信念

通过维护动态神经网络的信念分布，以偏向悲观主义的样本采样为基础的迭代策略优化算法被设计，可以最大限度地利用静态数据集，实现基于模型的离线强化学习。

Oct, 2022

广义函数逼近下的最优保守离线强化学习增广朗格朗日方法

本文基于边缘化重要性取样(RL)提出了一种新的离线强化学习算法，以实现一般函数逼近和单策略可集中性的统计最优性，无需不确定性量化，并且通过应用增广Lagrange方法，保证某些占用有效性约束的近似满足。与以往力图通过行为规则化等方法引入额外保守性的算法不同，本文方法证明消除了这种需求，并将规则化器重新解释为“占用有效性的执行者”，而不是“保守性的促进者”。

Nov, 2022

双重悲观主义在分布式鲁棒离线强化学习中证明有效：通用算法与鲁棒部分覆盖

本研究提出了一个新的算法框架用于分布鲁棒离线强化学习，该算法结合了一种灵活的模型估计子程序和双倍悲观的策略优化步骤，其关键在于通过特定的模型估计子程序，提高离线数据集对鲁棒策略的覆盖度，从而有效克服分布偏移问题，并在多种函数逼近近似方法中得到了良好地应用。

May, 2023

增加覆盖分布的离线强化学习

本文研究在函数逼近的情况下，从已有数据集合学习最优策略的离线强化学习问题。研究发现，本文提出的一种简单基于边缘重要采样的算法，可以在数据集合的覆盖率不完整、函数类弱可学习的条件下，通过附加覆盖分布的先验知识来实现理论上的有限次样本保证，同时揭示了学习过程中引入的归纳偏差在覆盖数量与先验知识之间的权衡效应。

May, 2023

乐观模型展开用于悲观离线策略优化

我们提出了一个简单而有效的基于模型的离线强化学习框架ORPO，通过提倡更多的离群值扩展，基于乐观的MDP生成乐观模型推演用于悲观的离线策略优化，并在理论上证明ORPO训练出的策略在线性MDP中具有下界，实验结果显示我们的框架在广泛应用的基准测试中显著优于P-MDP基线，尤其在需要泛化的问题上表现出明显优势。

Jan, 2024