离线数据增强的有保证的在线策略梯度

Nov, 2023

离线数据增强的有保证的在线策略梯度

Offline Data Enhanced On-Policy Policy Gradient with Provable Guarantees

Yifei Zhou, Ayush Sekhari, Yuda Song, Wen Sun

TL;DR融合强化学习是指强化学习智能体能够同时访问离线数据和与真实环境进行交互的在线数据。本文提出了一种新的融合强化学习算法，它将基于策略的演员 - 评论家方法与离线数据相结合。理论上，我们的方法在离线强化学习特定假设成立时可以获得最佳结果，同时无论离线强化学习假设的有效性如何，仍然保持基于策略的演员 - 评论家方法的理论保证。实验结果表明，在具有挑战性的富观测环境中，我们的方法优于仅依赖于离线策略优化的最先进融合强化学习基准模型，证明了将基于策略和离线学习相结合的实证优势。

Abstract

hybrid rl is the setting where an RL agent has access to both offline data and online data by interacting with the real-world environment. In this work, we propose a new →

hybrid rl on-policy actor-critic method offline data off-policy training state-of-the-art theoretical guarantees

发现论文，激发创造

有限覆盖混合强化学习的在线算法的自然推广

混合强化学习利用在线和离线数据，研究其可证明的好处仍然很少，通过将状态 - 动作空间分区和在线算法温启动离线数据，我们证明了混合强化学习算法的遗憾可以通过最佳分区来表征，从而在探索方面取得可证明的增益。

Mar, 2024

混合强化学习：利用离线和在线数据都可使强化学习更加高效

本文介绍一种混合强化学习算法 Hy-Q，利用离线数据集和在线实时交互来提高算法设计的效率并最终在 Montezuma's Revenge 等测试数据上将混合强化学习算法的表现优于同类算法。

Oct, 2022

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

无关奖励微调：混合强化学习具有可证明统计优势

本文研究了在混合设置中对表格强化学习算法的探讨，通过利用已有的离线数据集以及未知环境中的在线交互，提出了一种高效的三阶段算法，不需要在数据收集期间提供任何奖励信息并且减少了样本的复杂度。

May, 2023

结合策略梯度与 Q-learning

本文提出了一种新技术，将策略梯度与 Q-learning 相结合，通过回放缓冲提取 On-policy 数据，从策略的动作偏好中估计 Q 值，并应用 Q-learning 更新。实验结果表明，这种 PGQL 技术在全套 Atari 游戏中的性能超过了异步优势 actor-critic（A3C）和 Q-learning，能够提高数据效率和稳定性。

Nov, 2016

一种面向离线强化学习的策略引导仿真方法

该研究提出了一种 Policy-guided Offline RL 算法，该算法在训练时将想法分解为指导策略和执行策略，并通过指导策略来指导执行策略以实现状态组合性。该算法在离线 RL 的标准基准 D4RL 上展示了最高效的性能，并可以通过改变指导策略来轻松适应新的任务。

Oct, 2022

百人为导师，百万人引领：自适应离线强化学习与专家指导

离线强化学习中典型问题是分布转移问题，我们提出了一种名为 Guided Offline RL（GORL）的新方法，使用引导网络和少数专家演示样本，自适应确定每个样本的策略改进和策略约束的相对重要性。在各种环境上进行的大量实验表明，GORL 可在大多数离线强化学习算法上轻松安装，并实现统计上显著的性能提升。

Sep, 2023

乐观自然策略梯度：一种简单高效的在线强化学习策略优化框架

本文提出了一种称为 Optimistic NPG 的简单高效策略优化框架，该框架的样本复杂度具有最优的维度依赖性，可以高效地学习线性 MDP 和函数逼近下的最优策略。

May, 2023

带有梯度惩罚和约束松弛的鲁棒离线强化学习

本文介绍了解决离线强化学习面临的数据污染问题的一系列技术，包括梯度惩罚和批评家权重约束松弛等方法，并在 D4RL Mujoco 和 Adroit 数据集上进行了实验验证。

Oct, 2022

离线观察的混合增强学习

我们考虑了混合强化学习的情境，在该情境下，智能体可以同时访问离线数据和在线交互式访问。虽然强化学习研究通常假设离线数据包含完整的动作、奖励和转换信息，但仅包含状态信息的数据集（也称为仅观测数据集）更为通用、丰富和实际。这激发了我们对具有仅观测离线数据集框架的混合强化学习的研究。在提供环境复位模型（即，可以复位到任何状态的模型）的情况下，可以解决与离线数据中的最佳策略竞争的任务。然而，我们展示了在仅获得较弱的追踪模型时（即，只能复位到初始状态并必须通过环境产生完整轨迹），且没有对离线数据的可接受性假设的情况下，问题的困难性证据。在接受性假设下 - 即离线数据实际上可以由我们考虑的策略类产生 - 我们提出了首个可以与利用复位模型的算法性能相匹配的追踪模型设置中的算法。我们还进行了概念验证实验，表明我们的算法在实践中的有效性。

Jun, 2024