利用密度比例进行在线强化学习

ICLRJan, 2024

Harnessing Density Ratios for Online Reinforcement Learning

Philip Amortila, Dylan J. Foster, Nan Jiang, Ayush Sekhari, Tengyang Xie

TL;DR该论文介绍了离线强化学习和在线强化学习的统一理论以及密度比建模在在线强化学习中的存在，并提出了 GLOW 算法和 HyGLOW 算法作为在线探索的方法。

Abstract

The theories of offline and online reinforcement learning, despite having evolved in parallel, have begun to show signs of the possibility for a unification, with algorithms and analysis techniques for one setting often having natural counterparts in the other. However, the notion of d

offline reinforcement learning online reinforcement learning density ratio modeling glow algorithm hybrid rl

发现论文，激发创造

基于价值和密度比实现的离线强化学习：间隙的威力

本研究针对离线强化学习中的样本利用效率问题，提出了基于地位结构的重要性采样（MIS）的悲观算法，并利用较弱的函数逼近前提给出保证。

Mar, 2022

在线强化学习中覆盖率的作用

该论文研究覆盖条件在离线强化学习中的作用，并通过建立覆盖条件与在线强化学习之间的联系，证明存在具有良好覆盖性的数据分布可以使在线 RL 更具样本效率。此外，提出了用于衡量覆盖性的新型复杂度量和弱覆盖性概念的不足。

Oct, 2022

具可实现性和单策略集中性的离线强化学习

本文研究除去 Bellman-completeness 和 all-policy concentrability 强假设是否可以在两个因素上弱化假设，结果证明基于 MDPs 的原始 - 对偶算法可以实现针对单策略可集中性的多项式样本复杂度，提供了不同假设的替代分析，为离线 RL 的原始 - 对偶算法提供新方法。

Feb, 2022

建立分布鲁棒学习和离线强化学习的桥梁：缓解分布偏移和部分数据覆盖的方法

离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决，本文提出了两种使用该框架的离线强化学习算法，并通过模拟实验展示了其优越性能。

Oct, 2023

有限覆盖混合强化学习的在线算法的自然推广

混合强化学习利用在线和离线数据，研究其可证明的好处仍然很少，通过将状态 - 动作空间分区和在线算法温启动离线数据，我们证明了混合强化学习算法的遗憾可以通过最佳分区来表征，从而在探索方面取得可证明的增益。

Mar, 2024

在线强化学习中一般覆盖条件在有效函数逼近中的可证明优势

本研究聚焦于在线强化学习中，使用一定的覆盖条件能够确保样本高效，通过挖掘更多的覆盖条件，研究了其在提高样本效率方面的潜力和效用，进一步证明使用覆盖条件能够实现在线强化学习的高效性，包括 $L^p$ 集中性方差实现、密度比实现、偏差 / 休息覆盖条件的权衡以及基于探索性离线数据使用统计和计算有效保证等。

Apr, 2023

增加覆盖分布的离线强化学习

本文研究在函数逼近的情况下，从已有数据集合学习最优策略的离线强化学习问题。研究发现，本文提出的一种简单基于边缘重要采样的算法，可以在数据集合的覆盖率不完整、函数类弱可学习的条件下，通过附加覆盖分布的先验知识来实现理论上的有限次样本保证，同时揭示了学习过程中引入的归纳偏差在覆盖数量与先验知识之间的权衡效应。

May, 2023

何时信任你的模拟器：动态感知的离线与在线混合增强学习

本研究提出了一个新的混合离线 - 在线强化学习范式，通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷，并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法，从而为解决实际的复杂任务提供了全新的思路。

Jun, 2022

混合强化学习：利用离线和在线数据都可使强化学习更加高效

本文介绍一种混合强化学习算法 Hy-Q，利用离线数据集和在线实时交互来提高算法设计的效率并最终在 Montezuma's Revenge 等测试数据上将混合强化学习算法的表现优于同类算法。

Oct, 2022

训练神经网络进行似然 / 密度比估计

本文介绍了一种基于神经网络和优化方法的似然比函数估计的方法，可用于工程和统计领域中的检测和假设检验问题。

Nov, 2019