PAC 强化学习的主动覆盖
该论文研究覆盖条件在离线强化学习中的作用,并通过建立覆盖条件与在线强化学习之间的联系,证明存在具有良好覆盖性的数据分布可以使在线 RL 更具样本效率。此外,提出了用于衡量覆盖性的新型复杂度量和弱覆盖性概念的不足。
Oct, 2022
本文研究在函数逼近的情况下,从已有数据集合学习最优策略的离线强化学习问题。研究发现,本文提出的一种简单基于边缘重要采样的算法,可以在数据集合的覆盖率不完整、函数类弱可学习的条件下,通过附加覆盖分布的先验知识来实现理论上的有限次样本保证,同时揭示了学习过程中引入的归纳偏差在覆盖数量与先验知识之间的权衡效应。
May, 2023
本研究聚焦于在线强化学习中,使用一定的覆盖条件能够确保样本高效,通过挖掘更多的覆盖条件,研究了其在提高样本效率方面的潜力和效用,进一步证明使用覆盖条件能够实现在线强化学习的高效性,包括 $L^p$ 集中性方差实现、密度比实现、偏差 / 休息覆盖条件的权衡以及基于探索性离线数据使用统计和计算有效保证等。
Apr, 2023
探索是强化学习中的一个主要挑战,该研究提出了探索目标 —— 一种能够使任何奖励函数最大化的政策优化目标,作为一个概念框架来系统研究探索。在这个框架中,引入了一个新的目标 $L_1$-Coverage,它推广了以前的探索方案并支持三个基本的愿望:内在复杂性控制、高效规划和高效探索。经验证实,$L_1$-Coverage 能够有效地驱动政策优化算法对状态空间进行探索。
Mar, 2024
介绍了 Policy Cover-Policy Gradient (PC-PG) 算法,其通过学习的策略集 (策略保证) 来平衡探索和开发的权衡,同时具有强大的模型误差优化保证
Jul, 2020
本研究提出了基于随机游走探索的 Q 学习的问题特定样本复杂度界限,该界限依赖于多个结构性质,并将理论结果与某些经验基准领域相关联,以说明我们的界限在这些领域中是否具有多项式样本复杂度并与经验绩效相关。
May, 2018
研究在线学习中常见的数据不全覆盖情况,提出 Constrained Pessimistic Policy Optimization (CPPO) 算法,基于模型类别的限制来表示悲观情况,算法可以在数据不全覆盖的情况下具有 PAC 保证。
Jul, 2021
该研究提出了基于强化学习的、连续状态和动作空间下的在线覆盖路径规划方法,用于处理未知环境的大型区域,并且结合了全局地图和局部感知输入,以及多尺度地图输入表示的观测空间构建,通过提出的全变差奖励,实现了学习路径上无漏洞被覆盖的目标。
Jun, 2023
我们介绍了没有任何附加结构假设的 Latent Markov Decision Processes (LMDPs) 的第一个样本高效算法,并建立了新的离线评估引理和 LMDPs 的新覆盖系数,通过这些结果可以推导出一种乐观探索算法的近似最优保证。我们相信这些结果对于广泛的交互式学习问题,特别是部分观测环境中,具有重要价值。
Jun, 2024