通过生成模型在模型为基础的强化学习中突破样本量限制
本文研究了使用生成模型获取具有 ε- 最优策略的折扣马尔可夫决策过程(MDP)的样本复杂度和计算复杂度,通过最自然的插件方法来构建 MDP 中的转移模型的最大似然估计值,并确定它是否非渐近地在给定固定样本大小时找到质量最优策略的极小 / 极大值。结果发现,任何高精度的插件模型的解法,都能在真正的基本 MDP 中提供一个 ε- 最优策略,这种方法不会将算法绑定到采样程序中。
Jun, 2019
本文提出了一种无模型的算法来学习具有折扣因子的马尔可夫决策过程中的政策,该算法的成功概率为 (1-p),且具有样本复杂度 O (SALn (1/p)/(ε^2 (1-γ)^3)),其中 S 是状态数,A 是行动数,γ 是折扣因子,ε 是一个近似阈值
Jun, 2020
通过引入方差缩减策略,设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题,该算法的空间复杂度为 $ O (SAH)$,较以前的算法提高了 $S^5A^3$ 倍的效率。
Oct, 2021
本文使用生成模型证明了在马尔可夫决策过程中,基于值迭代算法的样本复杂度 PAC 上限为 O (Nlog (N/δ)/((1-γ)³ε²)),其中 N 为状态 - 动作对的数量,γ 为折扣因子,ε 表示动作价值函数的 ε- 最优估计,δ 为概率。同时证明了在任何强化学习算法中,基于每个状态 - 动作对估计最优动作值函数的样本复杂度下限为 Θ(Nlog (N/δ)/((1-γ)³ε²)),该上限和下限在 N,ε、δ、1/(1-γ) 方面匹配。
Jun, 2012
我们提出了多种经过证明有效的无模型强化学习算法,包括基于参考优势分解的在线无模型强化学习算法以及适用于模拟器环境的无模型强化学习算法,在平均报酬马尔科夫决策过程中实现更好的折扣估计和置信区间的高效构建。
Jun, 2023
本文探究了基于模型的强化学习算法在多智能体环境中的样本复杂度,通过两人零和马尔科夫博弈问题的研究发现,此种算法的样本复杂度为大 O (SA(1-γ)-3ε-2), 优于其他方法,但其依赖于动作空间大小,存在一定局限性。
Jul, 2020
研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距,采用分布鲁棒马尔可夫决策过程的框架,在规定的不确定性集合范围内学习最优性能策略,对于不同的不确定性集合,分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性,结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习,而是依赖于不确定性集合的大小和形状。
May, 2023