可证明高效的无限时间平均回报线性MDP的强化学习
本文提出两种基于无模型的强化学习算法,用于学习无限时间持续的平均回报MDP问题,第一种算法在弱相互通信的MDPs中,将问题简化为折扣回报问题,在T步之后的遗憾为O(T^(2/3)),该算法是解决该问题的第一种无模型的算法;第二种算法利用了对抗多臂老虎机自适应算法的最新进展,将遗憾进一步改进至O(sqrt(T)),但需要更强的符合人类定义的遍历条件。这个结果取代了Abbasi-Yadkori等人2019年只有在符合人类定义的遍历条件下的ergodic MDP才能达到O(T^(3/4))的遗憾。
Oct, 2019
提出了一种基于EE-QL,结合浓度逼近和无模型弱交流 MDPs 的无模型学习算法,实现了与最佳已知基于模型算法相似的学习速度。
Jun, 2020
开发多种学习用于Markov Decision Processes的无限时间平均奖励设置和线性函数逼近的算法,使用乐观原则和假设MDP具有线性结构,提出具有优化的计算效率的算法,并展开了详细的分析,改进了现有最佳结果。
Jul, 2020
本研究提出了一种政策优化算法,用于处理成本约束下的无限时间跨度平均奖励马尔可夫决策过程中的后悔最小化问题,该算法在符合一定条件的MDP下具有较低的后悔度和约束违反率,并将其推广到弱通信MDP领域,为该领域提供了复杂度可行的算法。
Jan, 2022
本文研究了无限时间段平均回报马尔可夫决策过程(MDP)。与现有研究不同的是,我们采用了基于通用策略梯度的算法,使其摆脱了线性MDP结构的约束。我们提出了一种基于策略梯度的算法,并证明了其全局收敛性质。然后我们证明该算法具有$\tilde{\mathcal{O}}({T}^{3/4})$的后悔度。值得注意的是,本文是第一次对于一般参数化策略梯度算法在平均回报情景下的后悔计算进行了探索性研究。
Sep, 2023
本文研究了无限时段平均回报约束马尔可夫决策过程(CMDP)。在我们的知识范围内,该工作是第一个深入探讨了具有一般策略参数化的平均回报CMDP的遗憾和约束违反分析。为了解决这个挑战,我们提出了一种基于原始对偶的策略梯度算法,能够在确保低遗憾全局最优策略的同时,灵活处理约束。特别地,我们证明了我们提出的算法实现了$\tilde{\mathcal{O}}({T}^{3/4})$的目标遗憾和$\tilde{\mathcal{O}}({T}^{3/4})$的约束违反界限。
Feb, 2024
该研究报告首次提出了有限时间全局收敛分析方法,针对无限时间平均奖励马尔可夫决策过程中的策略梯度方法。具体而言,我们关注的是具有有限状态和动作空间的遍历型表格型马尔可夫决策过程。我们的分析表明,策略梯度迭代以O(log(T))的子线性速率收敛到最优策略,并获得了O(log(T))的后悔度保证,其中T表示迭代次数。我们的研究工作主要贡献在于证明了策略梯度算法对于平均奖励马尔可夫决策过程的收敛性,以及得到了有限时间的性能保证。与现有的折扣奖励性能界限不同,我们的性能界限明确依赖于捕捉底层马尔可夫决策过程复杂性的常数。在此基础上,我们重新审视和改进了折扣奖励马尔可夫决策过程的性能界限,并通过模拟评估了平均奖励策略梯度算法的性能。
Mar, 2024
我们提出了一种名为LOOP的新算法框架,它结合了基于模型和基于值的方法,用于研究无限时域平均奖励马尔可夫决策过程(AMDPs)。此外,我们提出了一个新的复杂度度量并证明了框架在几乎所有AMDPs中的有效性。
Apr, 2024
我们研究了具有非线性函数逼近的基于模型的强化学习,其中底层马尔可夫决策过程(MDP)的转移函数由一个多项式逻辑模型给出。本文针对无限时间平均奖励设定,提出了两种算法。第一个算法UCRL2-MNL适用于通信MDP类,并实现了一种具有(近似)Ο(dD√T)的遗憾保证,其中d是特征映射的维数,D是底层MDP的直径,T是时间界。第二个算法OVIFH-MNL在计算上更有效,并适用于更一般的弱通信MDP类,我们展示了其具有(近似)Ο(d^(2/5)sp(v^*)T^(4/5))的遗憾保证,其中sp(v^*)是相关最优偏差函数的散度。我们还证明了对于最大直径为D的可通信MDP,学习具有MNL转移的复杂度的Ω(d√(DT))的下界。此外,我们对于具有MNL函数逼近的H-时间界的情况,展示了Ω(dH^(3/2)√K)的遗憾下界,在这里K是序列的数量,该下界优于有限时间界设定的已知最佳下界。
Jun, 2024
本文提出了一种计算上可行的算法,用于学习无限时间平均奖励的线性马尔可夫决策过程(MDP)和线性混合MDP,满足贝尔曼最优性条件。该算法在保证计算效率的同时,对于线性MDP实现了已知的最佳后悔界限,具有显著的理论和实践意义。
Sep, 2024