本文探讨了多人博弈中学习的样本复杂性问题,并设计算法在样本复杂度多项式级别下,求解多人一般和马尔可夫博弈的粗略关联均衡和关联均衡,同时提出了针对特定条件下的学习算法,显著提高了现有算法的效率和精度。
Oct, 2021
本文研究了去中心化多智能体强化学习问题中的不后悔算法,并探讨了自主学习能否在标准 Markov 博弈框架中实现无后悔学习。结果表明,无论是已知还是未知的博弈,该问题都无法以多项式时间实现无后悔学习,该文贡献了理论证明支持,提出了基于集聚方法的创新性应用,并发现了 SparseCCE 问题的下限,从而说明了近年来学者对于该问题的研究成果,并对博弈理论和强化学习算法研究方向提出了新的思考。
Mar, 2023
简而言之,本文提出了一种针对广义和博弈的、分散、计算高效的算法,其保证所有代理都使用时可以提供次线性遗憾保证,并且不需要代理之间的通信。该算法的主要观察结果是,通过马尔可夫游戏的在线学习基本上可以归结为一种加权遗憾最小化。
Jul, 2022
本研究针对具有线性结构的两人零和有限马尔可夫博弈提出了一种基于乐观价值迭代的增强学习算法,该算法通过构建价值函数的上下置信区间,并用 Coarse Correlated Equilibrium 求解泛化和纳什均衡问题,实现了性能的总时间平方根复杂度的上限。
Feb, 2020
本文针对多智能体强化学习算法在代理数目增多时出现的采样复杂度指数级增长的现象,提出了一些去中心化的学习算法,并在几个关键的方面上做了优化,同时通过数值仿真验证我们理论的有效性。
研究了一种具有未知转移概率密度函数的一般和随机游戏的纳什平衡学习。介绍一种加权渐近纳什均衡的概念,并提出了两种算法,一种是针对精确伪梯度的,另一种是针对未知伪梯度的。
Oct, 2022
为了解决两个玩家零和马尔可夫博弈问题,在多智能体强化学习的理论研究中引起了越来越多的关注。通过提出一种无模型的基于阶段的 Q 学习算法,我们展示了该算法能够与最佳的有模型算法达到相同的样本复杂度,进而首次证明了无模型算法在与模型有关的 $H$ 上的依赖性上能够达到相同的最优性。
Aug, 2023
提出了第一种能够在分布式系统下使用函数逼近算法解决多代理强化学习的方法,此算法总能输出马尔可夫序列最优解,并且实现了根据多样性相关均衡(CCE)找到Ɛ- 最优解的最优速率,同时,还提出了一种能够在多样性相关均衡(CCE)中找到策略类受限一致均衡的分布式算法。
Feb, 2023
该论文提出了针对多智能体逆向强化学习(MIRL)问题的五种变体解决方案,包括合作博弈、相关均衡博弈、纳什均衡博弈、对抗性均衡博弈和协调均衡博弈,并提出了一些新的方法来解决这些问题。
Jun, 2018
研究离线多智体强化学习在马尔科夫博弈中学习近似均衡,提供适用于一般函数逼近的新框架以处理所有三种均衡,此框架利用 Bellman 一致压缩和数据覆盖条件,与之前的算法框架相比,其保证更好且能够处理更广泛的情况。