VIPeR: 基于神经函数近似的离线强化学习可证明高效算法

ICLRFeb, 2023

VIPeR: 基于神经函数近似的离线强化学习可证明高效算法

VIPeR: Provably Efficient Algorithm for Offline RL with Neural Function Approximation

Thanh Nguyen-Tang, Raman Arora

TL;DR该研究提出了一种称为 VIPeR 的新算法，将悲观主义原则与值函数的随机扰动相结合，用于弥补当前离线 RL 算法在使用神经网络近似值函数的复杂问题上无法轻松扩展的局限，实现了具有集成学习功能的离线 RL 算法。

Abstract

We propose a novel algorithm for offline reinforcement learning called Value Iteration with perturbed rewards (VIPeR), which amalgamates the pessimism principle with random perturbations of the value function. Mo

value iteration perturbed rewards offline reinforcement learning ensemble learning neural networks

发现论文，激发创造

利用悲观主义充分利用方差信息的线性表示下近似最优离线强化学习

利用线性模型表示形式研究离线强化学习的统计学限制，提出方差感知悲观值迭代算法，重新权重贝尔曼残差以提高离线学习界限。

Mar, 2022

通过悲观主义实现最优离线强化学习

本文研究了离线强化学习问题，特别是针对有限时间视野 MDPs 的离线强化学习问题的采样效率问题，提出了自适应悲观值迭代算法，并推导了其次优性上界，推广到了无任何假设的情况下，并得到了无假设的本质学习下界，揭示了离线强化学习固有的根本限制。

Oct, 2021

悲观策略在离线强化学习中能被证明是高效的吗？

本文提出了一种悲观的价值迭代算法（PEVI），它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题，并在泛化情况下对其次优性建立了数据相关的上限。

Dec, 2020

脱机强化学习的悲观非线性最小二乘值迭代

提出了一种用于非线性函数逼近的离线强化学习方法 —— 悲观非线性最小二乘值迭代 (PNLSVI)，它包括方差加权回归、方差估计子程序和基于悲观值迭代的规划阶段。该方法的遗憾界与函数类的复杂性紧密相关，并在针对线性函数逼近的情况下实现极小化的最优实例相关遗憾。在前期研究基础上，扩展到更一般的框架。

Oct, 2023

使用通用价值函数逼近进行强化学习中的随机探索

提出了一种无模型强化学习算法，由于乐观原则和最小二乘价值迭代算法的启示，通过简单地使用谨慎选择的独立同分布的标量噪声扰乱训练数据来推动探索，在估计乐观值函数的同时引入了一种乐观的奖励采样过程，并证明了当数值函数可由函数类 \mathcal {F} 表示时，该算法实现了最坏情况下的遗憾度量边界，并在已知的难度探索任务上进行了实证评估。

Jun, 2021

多样化的随机化价值函数：离线强化学习的可证明悲观方法

离线强化学习面临分布偏移和不可靠价值估计，本文提出了一种新策略，采用多样化的随机化值函数估计 $Q$ 值的后验分布，并应用适度的价值惩罚方法来确定鲁棒的不确定性量化和 $Q$ 值的较低置信区间。通过提高随机化值函数的多样性并引入一种多样性正则化方法，可以减少所需的网络数量，从而实现可靠的价值估计和有效的策略学习。理论分析表明，在线性 MDP 假设下，我们的方法能够恢复出经过证明的高效的较低置信区间惩罚。大量的实证结果也证明，我们提出的方法在性能和参数效率方面明显优于基准方法。

Apr, 2024

通过策略提取实现可验证的强化学习

使用 VIPER 算法训练决策树策略来增强强化学习的安全性和验证性，它相对于其他算法在 Atari Pong 和 cart-pole 这两项任务上都有着可靠的表现。

May, 2018

基于扰动数据源的可证明高效离线强化学习

本文研究了使用多个数据集进行离线强化学习的问题，提出了一种考虑样本和数据源不确定性的算法，并在离线马尔科夫博弈和离线鲁棒强化学习方面进行了推广。

Jun, 2023

VIREL：一种变分推断框架的强化学习

提出一种新的基于概率模型的强化学习方法 VIREL，通过应用参数化的动作值函数来总结底层 MDP 系统的未来动态，使 VIREL 具有 KL 散度的寻找峰值形式、自然地从推断中学习确定性最佳策略的能力和分别优化价值函数和策略的能力。通过对 VIREL 应用变分期望最大化方法，我们表明可以将 Actor-critic 算法简化为期望最大化，其中策略改进对应 E 步骤，策略评估对应 M 步骤，最后，我们展示了来自这个家族的 Actor-critic 算法在几个领域优于基于软值函数的最新方法。

Nov, 2018

轨迹 - wise 奖励的可证明高效离线强化学习

本文提出了一种新颖的离线 RL 算法，PARTED，可将轨迹回报分解为逐步代理奖励，具有一定的收敛上界，该算法可以有效地处理观察到的轨迹奖励问题。

Jun, 2022