有限马尔可夫决策问题中的勘探-利用
本文研究如何在满足成本平均值约束条件下,通过设计基于模型的强化学习算法,从而最大化累积奖励,同时确保每个成本值的平均值被绑定在特定的上界之内。此外,我们提出了一种衡量强化学习算法表现的方法,即使用M+1维的后悔向量来衡量奖励和不同成本的差异,并证明了UCRL-CMDP算法的后悔向量的期望值的上界为O(T ^ {2/3}).
Feb, 2020
研究无限时间、折扣的约束马尔可夫决策过程中的政策优化问题,提出了一种泛化的原始-对偶框架,用于评估算法表现,实例化了此框架来使用硬币投注算法并证明了其结果的目标约束逼近度,以及并非像其他方法一样需要超参数调整,并通过对合成和Cartpole环境的实验证明了其效力和稳健性。
Apr, 2022
该论文研究使用在线学习算法在约束马尔可夫决策过程中收集奖励的同时确保满足某些长期约束条件,提出了一种适用于约束性马尔可夫决策过程的最佳算法,能够管理随机和敌对条件下的奖励以及约束,并提供了理论保证。
Apr, 2023
本文提出了一种基于Lagrangian方法的新型模型双重算法OptAug-CMDP,针对标签化的有限路径CMDP,证明了该算法在探索CMDP的K个周期内同时获得了目标和约束违规的期望性能敏感性,且无需进行错误取消。
Jun, 2023
我们引入并研究了具有任意时间限制的受限马尔可夫决策过程(cMDPs)。我们提出了一种固定参数可处理的方法,将具有任意时间限制的cMDPs转化为无约束的MDPs。我们设计出了适用于大表cMDPs的计划和学习算法,并设计了近似算法,可以高效地计算或学习一个近似可行策略。
Nov, 2023
本文研究了无限时段平均回报约束马尔可夫决策过程(CMDP)。在我们的知识范围内,该工作是第一个深入探讨了具有一般策略参数化的平均回报CMDP的遗憾和约束违反分析。为了解决这个挑战,我们提出了一种基于原始对偶的策略梯度算法,能够在确保低遗憾全局最优策略的同时,灵活处理约束。特别地,我们证明了我们提出的算法实现了$\tilde{\mathcal{O}}({T}^{3/4})$的目标遗憾和$\tilde{\mathcal{O}}({T}^{3/4})$的约束违反界限。
Feb, 2024
我们研究了强化学习问题中的约束马尔可夫决策过程(CMDP),并通过优化算法对CMDP问题的样本复杂度提出了改进,实现了优化的问题相关保证。
Feb, 2024
基于后验抽样的新算法在无限时间视野下的有约束马尔科夫决策过程学习中实现了几乎最优的悔恨界限,并在实践中相比现有算法具有优势。
May, 2024