正态形式博弈的均衡路径

Mar, 2024

Paths to Equilibrium in Normal-Form Games

Bora Yongacoglu, Gürdal Arslan, Lacra Pavel, Serdar Yüksel

TL;DR对于有限正规式游戏的混合延伸，本研究回答了一个关于战略动态的基本问题：对于给定的游戏和初始策略配置，是否总是可能构造一个以均衡策略终止的满足路径。

Abstract

In multi-agent reinforcement learning (MARL), agents repeatedly interact across time and revise their strategies as new data arrives, producing a sequence of strategy profiles. This paper studies sequences of strategies satisfying a pairwise constraint inspired by policy updating in re

发现论文，激发创造

具有非线性动力学的多智能体强化学习算法

使用加权策略学习器（Weighted Policy Learner）算法，基于本地奖励的反馈，实现了多智能体强化学习（MARL）算法在二人二选手博弈中寻找Nash Equilibrium的能力。与之前的算法相比，WPL不需要观察其他智能体动作和奖励，也不需要预先了解博弈本质和NE解，收敛表现优于现有的算法，并且在100个智能体交互中并行收敛。通过对WPL的动力学分析，可以更好地理解该算法的行为，分析WPL的收敛性比较困难，需要数值模拟求解动力学微分方程来验证其收敛性。

Jan, 2014

多智能体强化学习：理论和算法的选择性概述

本文在selective的视角下提供了多智能体强化学习领域的理论分析综述，重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果，并突出了MARL理论的几个新角度和分类，探讨了在学习博弈论、分散式多智能体、平均场与（非）收敛、多类型任务等方面的有前途的未来研究方向。

Nov, 2019

零和马尔可夫博弈的分散式 Q 学习

本研究在非协调控制下，针对无限期、折现、零和马尔可夫博弈中的多智能体强化学习进行了研究。提出了一种无限期 Q 学习动态，该学习动态在没有集中控制器的情况下收敛到 Nash 均衡点，并且可以有效应对非固定环境的挑战。

Jun, 2021

多智能体竞赛中的探索-利用：有界理性下的收敛

通过研究充分考虑游戏奖励和探索成本平衡的原型学习模型Q-learning，我们证明在使用积极探索率的具有异质性学习代理的权重零和多元矩阵游戏中，Q-learning总是收敛于唯一的量刑-反应均衡（QRE），这是有界理性下游戏的标准解决方案概念，并展示了 Q-learning 在竞争环境中的快速收敛性，而无需任何参数微调，在竞争多代理环境中的均衡选择问题提供了算法所需的保证。

Jun, 2021

零和马尔可夫博弈中政策优化的更快收敛

本文提出了一种基于OMWU方法的单环路政策优化算法，并在二人零和马尔可夫博弈中，通过控制正则化的程度，实现了有限时间的最后一次线性收敛到达量子响应均衡点，并在全信息离散设置中实现了收敛结果。

Oct, 2022

多智能体 Q 学习动态的渐近收敛与性能

本论文研究了探索-利用困境下的平滑 Q 学习动态，并提出了一个探索速率的充分条件，使得该方法在任何游戏中都能收敛到唯一的均衡，这一结果适用于权重势博弈和权重零和多矩阵游戏。论文还比较了 Q 学习动态和实现均衡所能达到的社会福利，提供了一种充分条件，即使动态不收敛，Q 学习动态仍能超过均衡。

Jan, 2023

多智体决策的复杂性：从博弈中的学习到部分监控

本文研究了多智能体强化学习中的样本效率、均衡计算和统计复杂性等问题，提出了一系列新的结构性结果，并阐述了决策时附带隐藏报酬的统计复杂度。

May, 2023

异步分散式 Q-Learning: 持久性的两时间尺度分析

这篇研究论文探讨了多智能体强化学习中的非静态挑战，介绍了一种异步变种的分散式 Q 学习算法，并提供了使异步算法以高概率驱动到均衡的充分条件。它还将该算法及其相关方法的适用性扩展到参数独立选择的环境，并在不强加协调假设的情况下驯服了非静态挑战。

Aug, 2023

通过均衡逼近实现对同时行动博弈的树搜索

通过将自我博弈的树搜索算法应用于同时移动的游戏中，以近似粗略相关均衡为子程序的实际方法，提高了在合作、竞争和混合任务上的性能表现。

Jun, 2024

利用近似对称性实现高效的多智能体强化学习

本研究解决了现有均值场博弈（MFG）在多智能体强化学习中面临的对称性假设限制问题，提出了一种将任意有限玩家的可能不对称博弈扩展为“诱导MFG”的方法。研究表明，针对新提出的α,β-对称博弈，诱导的MFG的纳什策略可以作为N玩家动态博弈的近似纳什策略，且在特定条件下，学习一个ε-纳什策略的样本复杂度为$\tilde{\mathcal{O}}(\varepsilon^{-6})$，为多智能体系统的学习提供了新的理论支持和实践潜力。

Aug, 2024