PAC 强化学习的主动覆盖
本文研究了PAC强化学习在富观察力下的计算复杂度,提出了基于确定性隐藏状态动态和随机富观察的可证明的样本有效算法,同时证明了在具有随机隐藏状态动态的情况下,已知样本有效算法OLIVE不能在Oracle模型中实现,通过几个示例表明了在这样一般的设置中可计算PAC强化学习的根本挑战。
Mar, 2018
本文研究了在线学习与离线数据集学习两种环境下的样本有效的强化学习,提出了一个新的策略微调问题——在线 RL 中,学习者在某种意义下可以接近最优策略,并在马尔科夫决策过程(MDP) 中解决了这个问题。我们还提出了一个新的混合离线/在线策略微调算法,达到了更好的样本复杂度。
Jun, 2021
研究提出了一种新的针对PAC表格强化学习的实例相关样本复杂度的计算方法,并设计了一种能够达到该样本复杂度的规划算法,该算法几乎是极小值最优的,且在多个实例上展现出比最坏情况界限更显著的改进。
Aug, 2021
该论文研究覆盖条件在离线强化学习中的作用,并通过建立覆盖条件与在线强化学习之间的联系,证明存在具有良好覆盖性的数据分布可以使在线 RL 更具样本效率。此外,提出了用于衡量覆盖性的新型复杂度量和弱覆盖性概念的不足。
Oct, 2022
本文研究在函数逼近的情况下,从已有数据集合学习最优策略的离线强化学习问题。研究发现,本文提出的一种简单基于边缘重要采样的算法,可以在数据集合的覆盖率不完整、函数类弱可学习的条件下,通过附加覆盖分布的先验知识来实现理论上的有限次样本保证,同时揭示了学习过程中引入的归纳偏差在覆盖数量与先验知识之间的权衡效应。
May, 2023
我们提出了一个新颖的基于后验采样的离线RL算法,该算法在样本效率方面表现出与基于版本空间和经验正则化的算法可比拟的性能,并且具有频率主义的亚优性界限。
Jan, 2024
探索是强化学习中的一个主要挑战,该研究提出了探索目标——一种能够使任何奖励函数最大化的政策优化目标,作为一个概念框架来系统研究探索。在这个框架中,引入了一个新的目标$L_1$-Coverage,它推广了以前的探索方案并支持三个基本的愿望:内在复杂性控制、高效规划和高效探索。经验证实,$L_1$-Coverage能够有效地驱动政策优化算法对状态空间进行探索。
Mar, 2024
我们介绍了没有任何附加结构假设的Latent Markov Decision Processes (LMDPs)的第一个样本高效算法,并建立了新的离线评估引理和LMDPs的新覆盖系数,通过这些结果可以推导出一种乐观探索算法的近似最优保证。我们相信这些结果对于广泛的交互式学习问题,特别是部分观测环境中,具有重要价值。
Jun, 2024
采用信息论的观点,我们研究强化学习中的探索问题,并提出了一种新颖的无模型解决方案,通过推导实例特定的下界以及最优的探索策略,我们衍生出一种基于集成模型的无模型探索策略,适用于表格和连续马可夫决策过程, 数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。
Jun, 2024