在线强化学习的样本复杂度界定
通过引入方差缩减策略,设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题,该算法的空间复杂度为 $ O (SAH)$,较以前的算法提高了 $S^5A^3$ 倍的效率。
Oct, 2021
本文提出了一个模型自由的算法,通过方差降低和新颖的执行策略,解决了强化学习马尔可夫决策过程中无法实现遗憾最优和存在长时间燃烧期的问题,实现了短燃烧期下的最优采样效率。
May, 2023
研究强化学习的样本效率,证明了两种算法的最小最优性,同时实现了目标准确率的最小最优样本复杂度,这是目前首次提供涵盖整个样本范围的最小最优保证。
May, 2020
本研究基于鲁棒 Catoni 平均值估计器,提出一种新的鲁棒自归一化浓度界,解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题,并证明了在线性 MDP 设定下,可以获得与最优策略性能某种度量成比例的遗憾上界。
Dec, 2021
本文研究在线强化学习的样本复杂性问题,并考虑了有关系统动态的部分知识,提出了一种基于 Q-learning 的算法,能够在具有有限 Markov 决策过程的系统中实现近似最优策略。
Dec, 2023
本文介绍了一种基于加权线性回归方案的计算有效算法,用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾,具有较好的效率,对参数化转换动态有良好的适应性,可以对研究领域进行更细致的探讨。
Dec, 2022
本文提出了一种无模型的算法来学习具有折扣因子的马尔可夫决策过程中的政策,该算法的成功概率为 (1-p),且具有样本复杂度 O (SALn (1/p)/(ε^2 (1-γ)^3)),其中 S 是状态数,A 是行动数,γ 是折扣因子,ε 是一个近似阈值
Jun, 2020
本文研究了有限时间 MDPs 中探索的最优性问题,提出了一种基于值迭代的乐观算法,其探索奖励基于下一个状态的经验值的变化量,通过使用集中不等式提高算法的可伸缩性,取得了优于先前最佳算法的研究成果,可以实现与已知理论下限相匹配的后悔度。
Mar, 2017