Exploiter 的威力:在大状态空间下可证明的多智能体强化学习
提出了一种基于模型的强化学习算法,该算法包括明确的探索和利用阶段,并适用于大规模或无限状态空间,该算法维护一组与当前体验一致的动态模型,并通过查找在状态预测之间引起高度分歧的策略来进行探索,然后利用精细化的模型或在探索过程中收集的体验,我们证明,在实现和最优规划的假设下,我们的算法能够用多项式结构复杂度度量在很多自然设置中得到完美的政策,并给出了一个使用神经网络的实用近似,并证明了它在实践中的性能和样本效率。
Nov, 2019
我们提出了一种新模型独立线性马尔可夫游戏,用于具有大状态空间和大量代理的多代理强化学习,该模型具有独立线性函数逼近,并为其设计了新算法以学习 Markov 粗糙关联均衡和 Markov 相关均衡,其采样复杂度只随着每个代理自己的函数类复杂度以多项式方式扩展,从而打破了多代理的诅咒。
Feb, 2023
本文研究策略梯度方法在 Markov 潜在博弈多智能体强化学习问题上的全局非渐进收敛性质,提出新的独立策略梯度算法,证明算法达到 epsilon-Nash 平衡的迭代复杂度为 O (1/epsilon^2),并在利用函数逼近的样本算法中,建立了样本复杂度为 O (1/epsilon^5) 的界限。同时,还找到了一类独立策略梯度算法,可在玩家对游戏类型无感知的情况下,实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。
Feb, 2022
本文提出了一种新的多智能体策略互惠(PR)框架,其中每个智能体可以在不匹配的状态下充分利用跨智能体策略,并定义了一个不匹配状态的邻接空间并设计一个即插即用模块的值迭代,以提高 PR 的可扩展性和稳定性,实验证明 PR 在离散和连续环境中优于现有的各种 RL 和转移 RL 方法。
Apr, 2023
本文提出了一种基于 OMWU 方法的单环路政策优化算法,并在二人零和马尔可夫博弈中,通过控制正则化的程度,实现了有限时间的最后一次线性收敛到达量子响应均衡点,并在全信息离散设置中实现了收敛结果。
Oct, 2022
通过研究充分考虑游戏奖励和探索成本平衡的原型学习模型 Q-learning,我们证明在使用积极探索率的具有异质性学习代理的权重零和多元矩阵游戏中,Q-learning 总是收敛于唯一的量刑 - 反应均衡(QRE),这是有界理性下游戏的标准解决方案概念,并展示了 Q-learning 在竞争环境中的快速收敛性,而无需任何参数微调,在竞争多代理环境中的均衡选择问题提供了算法所需的保证。
Jun, 2021
本文首次通过对 Wang 等人 (2023) 的 AVLPR 框架进行优化,应用基于数据的悲观估计来解决 “多智能体诅咒”,并提出了新颖的 “动作相关奖励” 方法,通过拓展选择插件算法的范围,结合单智能体强化学习领域的最新技术,提出了一种同时解决了多智能体诅咒问题、达到了最佳的 O (T^-1/2) 收敛速率以及避免了多项式依赖的算法。
Feb, 2024
本研究提出了一个易于实现的 RL 框架 Maximize to Explore(MEX),它通过最大化一个综合了估计和规划分量的单一目标,在自动平衡探索和利用方面实现了比现有算法更高的采样效率,并实现了更低的计算成本和更好的与现代深度 RL 方法兼容性。
May, 2023
我们研究了具有通用效用的可扩展多代理强化学习,通过利用网络结构的空间相关性衰减特性提出了一种具有阴影奖励和本地策略的可扩展分布式策略梯度算法,该算法不需要全观察每个代理的情况,可以最大化团队的平均局部效用函数。
Feb, 2023
提出了第一种能够在分布式系统下使用函数逼近算法解决多代理强化学习的方法,此算法总能输出马尔可夫序列最优解,并且实现了根据多样性相关均衡(CCE)找到Ɛ- 最优解的最优速率,同时,还提出了一种能够在多样性相关均衡(CCE)中找到策略类受限一致均衡的分布式算法。
Feb, 2023