基于悲观模型的部分覆盖离线强化学习
本研究提出了基于模型的离线强化学习算法 MOReL,具有模块化设计,可以用于模型生成、不确定性估计、规划等领域,实验结果表明,MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。
May, 2020
本文提出了一种悲观的价值迭代算法(PEVI),它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题,并在泛化情况下对其次优性建立了数据相关的上限。
Dec, 2020
本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL),它通过引入一种Q函数的不确定度来量化不确定性,并以此进行悲观更新,以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明,相比现有算法,PBRL具有更好的性能表现。
Feb, 2022
本文研究了离线强化学习的一个悲观策略Q-learning,针对有限时间的马尔科夫决策过程,通过单一策略密度函数的集中性假设,对其样本复杂度进行了表征,并提出了一种方差减小的悲观Q-learning算法来达到接近最优的样本复杂度。研究结果表明,在离线强化学习中,结合悲观策略和方差减小的模型无关型算法能够提高效率。
Feb, 2022
研究通过行为策略收集的数据集来学习优化策略的离线强化学习算法,并针对潜在状态的影响所产生的混淆偏差和最优策略与行为策略之间的分布转换问题,提出了代理变量悲观策略优化(P3O)算法。
May, 2022
通过维护动态神经网络的信念分布,以偏向悲观主义的样本采样为基础的迭代策略优化算法被设计,可以最大限度地利用静态数据集,实现基于模型的离线强化学习。
Oct, 2022
本文基于边缘化重要性取样(RL)提出了一种新的离线强化学习算法,以实现一般函数逼近和单策略可集中性的统计最优性,无需不确定性量化,并且通过应用增广Lagrange方法,保证某些占用有效性约束的近似满足。与以往力图通过行为规则化等方法引入额外保守性的算法不同,本文方法证明消除了这种需求,并将规则化器重新解释为“占用有效性的执行者”,而不是“保守性的促进者”。
Nov, 2022
本研究提出了一个新的算法框架用于分布鲁棒离线强化学习,该算法结合了一种灵活的模型估计子程序和双倍悲观的策略优化步骤,其关键在于通过特定的模型估计子程序,提高离线数据集对鲁棒策略的覆盖度,从而有效克服分布偏移问题,并在多种函数逼近近似方法中得到了良好地应用。
May, 2023
本文研究在函数逼近的情况下,从已有数据集合学习最优策略的离线强化学习问题。研究发现,本文提出的一种简单基于边缘重要采样的算法,可以在数据集合的覆盖率不完整、函数类弱可学习的条件下,通过附加覆盖分布的先验知识来实现理论上的有限次样本保证,同时揭示了学习过程中引入的归纳偏差在覆盖数量与先验知识之间的权衡效应。
May, 2023
我们提出了一个简单而有效的基于模型的离线强化学习框架ORPO,通过提倡更多的离群值扩展,基于乐观的MDP生成乐观模型推演用于悲观的离线策略优化,并在理论上证明ORPO训练出的策略在线性MDP中具有下界,实验结果显示我们的框架在广泛应用的基准测试中显著优于P-MDP基线,尤其在需要泛化的问题上表现出明显优势。
Jan, 2024