零和马尔可夫游戏中的可微分仲裁
研究了游戏修改问题,其中一个仁慈的游戏设计者或恶意对手修改了零和马尔可夫博弈的回报函数,使得目标确定性或随机策略配置成为唯一的马尔可夫完美纳什均衡,并且其价值在目标范围内,以最小化修改成本。我们表征了可以作为某个游戏唯一均衡的策略配置集合,并通过建立充分和必要条件来确定成功安装的可能性。我们提出了一种高效的算法,通过求解一个带有线性约束的凸优化问题,然后进行随机扰动,以获得具有近似最优成本的修改计划。
Nov, 2023
本文研究了具有竞争性的马尔可夫游戏中的 Nash 均衡学习,使用了一种新的无模型方法找到近似 Nash 均衡,其中策略 - ε 对应性和状态至 ε- 最小策略是用神经网络表示的。在动态价格领域,可以学习到近似的 Nash 均衡。
Jul, 2022
本文提出了一种用于在马尔可夫博弈中寻找纳什均衡的新方法,该方法结合梯度下降和熵正则化,获得了更好的收敛性能,并证明了该算法在合适的正则化参数选择下可以收敛到原问题的纳什均衡。
May, 2022
本文提出了一种基于 OMWU 方法的单环路政策优化算法,并在二人零和马尔可夫博弈中,通过控制正则化的程度,实现了有限时间的最后一次线性收敛到达量子响应均衡点,并在全信息离散设置中实现了收敛结果。
Oct, 2022
研究内容涵盖电子竞技中的机器学习,多代理生成对抗网络的表现力,以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏,对在线学习算法的能力进行了讨论,并提出了一个基于控制论技术的一阶方法用于解决该类问题,该方法能够在某些条件下享有局部收敛性。
Nov, 2021
本文提出了一种用于计算竞争性双人游戏纳什均衡的新算法,该算法基于正则化双线性局部逼近的纳什均衡,避免了交替梯度下降中出现的振荡和发散,而且在达到指数级 (局部) 收敛性的同时,其收敛和稳定性的性质对于玩家之间的强交互是稳健的,具有更快的收敛速度。
May, 2019
提出了一种基于深度神经网络的算法来识别一般大型 $N$ 人随机微分博弈的马尔可夫纳什均衡,该算法的核心思想是将 $N$ 人游戏重塑为 $N$ 个解耦决策问题,并通过迭代解决。
Dec, 2019
本研究在非协调控制下,针对无限期、折现、零和马尔可夫博弈中的多智能体强化学习进行了研究。提出了一种无限期 Q 学习动态,该学习动态在没有集中控制器的情况下收敛到 Nash 均衡点,并且可以有效应对非固定环境的挑战。
Jun, 2021
本研究提出了一个广泛适用于多智能体领域的竞争性基于梯度的学习模型,并使用动态系统理论对其进行了分析,对于有限和无限游戏,我们表征了一组非常小的局部纳什均衡,这组均衡将被激活,如果每个智能体采用基于梯度的学习算法。同时研究了基于算法自身构建的不属于纳什均衡的收敛策略在有限和无限游戏中的存在性,这可能解释了在零和游戏中,应用相关算法时出现的困难。最后,为了验证理论贡献,我们给出了一个示例验证。
Apr, 2018