随时约束的多智能体强化学习
本研究针对具有线性结构的两人零和有限马尔可夫博弈提出了一种基于乐观价值迭代的增强学习算法,该算法通过构建价值函数的上下置信区间,并用 Coarse Correlated Equilibrium 求解泛化和纳什均衡问题,实现了性能的总时间平方根复杂度的上限。
Feb, 2020
本文研究了Markov粗粒度关联均衡问题的计算复杂性及其在多智能体强化学习中的应用,发现当多智能体交互为回合制、折扣因子和粗略程度为常数时,计算近似的Markov粗粒度关联均衡策略属于NP难问题,但是提供了在多智能体中非稳定Markov CCE策略的学习解决方案。
Apr, 2022
本文提出了一种基于OMWU方法的单环路政策优化算法,并在二人零和马尔可夫博弈中,通过控制正则化的程度,实现了有限时间的最后一次线性收敛到达量子响应均衡点,并在全信息离散设置中实现了收敛结果。
Oct, 2022
本文提出一种使用基于占用测度的拉格朗日优化方法来解决约束马尔可夫博弈的在线安全强化学习算法,经更新的minimax决策原始变量和双重变量,达到亚线性后悔率和约束违规率,实现对马尔可夫博弈的高效学习。
May, 2023
这篇论文研究了任何时候有竞争性的马尔可夫决策过程(A-CMDP)的问题。现有的约束马尔可夫决策过程(CMDP)的研究旨在优化预期奖励,同时约束于随机动力学下的预期成本,但是在特定情况下成本仍然可能过高。相反,A-CMDP的目标是在任何一轮任何剧集中的策略先验下,通过优化预期奖励来保证有限的成本。我们提出了一种新算法,称为Anytime-Competitive Reinforcement Learning(ACRL),它可以证明保证了任何时候的成本约束。后悔分析显示该策略在任何时候的成本要求下渐近匹配了最优奖励。对碳智能计算应用的实验证明了ACRL的奖励性能和成本约束保证。
Nov, 2023
我们引入并研究了具有任意时间限制的受限马尔可夫决策过程(cMDPs)。我们提出了一种固定参数可处理的方法,将具有任意时间限制的cMDPs转化为无约束的MDPs。我们设计出了适用于大表cMDPs的计划和学习算法,并设计了近似算法,可以高效地计算或学习一个近似可行策略。
Nov, 2023
在这篇论文中,我们提出了一个新的框架来描述多人Markov游戏中的乐观策略梯度方法,在单个控制器下收敛到稳定的ε-NE,其收敛速度为O(1/ε^2)次迭代,该框架基于对经典Minty性质的自然推广,我们相信它在Markov游戏之外也有进一步的应用。
Dec, 2023
多智能体强化学习中,通过引入自适应约束,我们设计一种基于消除的算法,在低批次复杂度下实现了对马尔可夫博弈的极小后悔,并且证明了匹配上界的批次复杂度下限,进一步地在理解低适应性的多智能体强化学习方面提供了首个一系列结果。
Feb, 2024
本文介绍了一个针对约束马尔可夫博弈的独立策略梯度算法,利用近端点更新和正则化约束集来求解近似的约束纳什均衡,具备独立实现、分布式更新和收敛性保证的特点。
Feb, 2024
我们提出了一种新颖的算法,能够高效计算约束强化学习问题的近似最优确定性策略。该算法通过三个关键思想进行组合:(1)价值需求增强,(2)动作空间的近似动态规划,以及(3)时间空间的取整。在较弱的奖励假设下,我们的算法构成了一个对多样化成本准则的全多项式时间近似方案。该类准则要求以递归方式计算策略的成本,涉及时间和状态空间,包括经典期望、几乎确定和实时约束。我们的工作不仅为解决实际决策中的挑战提供了经过证明的高效算法,还为高效计算约束性确定性策略提供了统一的理论。
May, 2024