利用悲观主义充分利用方差信息的线性表示下近似最优离线强化学习

ICLRMar, 2022

利用悲观主义充分利用方差信息的线性表示下近似最优离线强化学习

Near-optimal Offline Reinforcement Learning with Linear Representation: Leveraging Variance Information with Pessimism

Ming Yin, Yaqi Duan, Mengdi Wang, Yu-Xiang Wang

TL;DR利用线性模型表示形式研究离线强化学习的统计学限制，提出方差感知悲观值迭代算法，重新权重贝尔曼残差以提高离线学习界限。

Abstract

offline reinforcement learning, which seeks to utilize offline/historical data to optimize sequential decision-making strategies, has gained surging prominence in recent studies. Due to the advantage that appropriate function approximators can help mitigate the sample complexity burden

offline reinforcement learning function representations linear model representations variance-aware pessimistic value iteration learning bounds

发现论文，激发创造

脱机强化学习的悲观非线性最小二乘值迭代

提出了一种用于非线性函数逼近的离线强化学习方法 —— 悲观非线性最小二乘值迭代 (PNLSVI)，它包括方差加权回归、方差估计子程序和基于悲观值迭代的规划阶段。该方法的遗憾界与函数类的复杂性紧密相关，并在针对线性函数逼近的情况下实现极小化的最优实例相关遗憾。在前期研究基础上，扩展到更一般的框架。

Oct, 2023

通过悲观主义实现最优离线强化学习

本文研究了离线强化学习问题，特别是针对有限时间视野 MDPs 的离线强化学习问题的采样效率问题，提出了自适应悲观值迭代算法，并推导了其次优性上界，推广到了无任何假设的情况下，并得到了无假设的本质学习下界，揭示了离线强化学习固有的根本限制。

Oct, 2021

悲观策略在离线强化学习中能被证明是高效的吗？

本文提出了一种悲观的价值迭代算法（PEVI），它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题，并在泛化情况下对其次优性建立了数据相关的上限。

Dec, 2020

线性函数逼近离线强化学习的统计限制是什么？

本文研究提供确凿的样本高效离线强化学习算法需要什么样的可表示和分布条件。研究发现，即使有到所有策略的真实价值函数都线性映射到一组给定的特征，并且有关于策略的所有特征的良好聚集离线数据（在强谱条件下），任何算法仍然需要指数级的离线样本数量来估计任何给定策略的价值。

Oct, 2020

线性函数逼近下的方差感知离线评估

本研究旨在通过使用值函数的方差信息提高离线策略评估中的样本效率，其中针对非时变线性马尔可夫决策过程（MDPs），提出了 VA-OPE 算法，使用值函数的方差对 Fitted Q-Iteration 中的 Bellman 残差进行重新加权，并且我们展示了我们的算法比最好已知的结果实现了更紧密的误差界限。我们对行为策略和目标策略之间的分布变化进行了细致的描述，而广泛的数值实验也支持了我们的理论。

Jun, 2021

离线强化学习的悲观 Q 学习：朝着最优样本复杂性的方向

本文研究了离线强化学习的一个悲观策略 Q-learning，针对有限时间的马尔科夫决策过程，通过单一策略密度函数的集中性假设，对其样本复杂度进行了表征，并提出了一种方差减小的悲观 Q-learning 算法来达到接近最优的样本复杂度。研究结果表明，在离线强化学习中，结合悲观策略和方差减小的模型无关型算法能够提高效率。

Feb, 2022

离线强化学习：值函数逼近的基本限制

本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Nov, 2021

线性函数逼近离线强化学习的基于实例的上界

本研究提出了一种基于 Bootstrapped and Constrained Pessimistic Value Iteration 算法的离线强化学习方法，该算法结合数据自举、约束优化和悲观主义。在局部数据覆盖的假设下，该算法提供了一个快速率，即使在自适应采集的离线数据中，也能够实现绝对零的次优误差和 O（1 / K）的较低界限。

Nov, 2022

VIPeR: 基于神经函数近似的离线强化学习可证明高效算法

该研究提出了一种称为 VIPeR 的新算法，将悲观主义原则与值函数的随机扰动相结合，用于弥补当前离线 RL 算法在使用神经网络近似值函数的复杂问题上无法轻松扩展的局限，实现了具有集成学习功能的离线 RL 算法。

Feb, 2023

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021