通过高斯过程在黑盒游戏中进行纳什均衡的无悔学习

May, 2024

通过高斯过程在黑盒游戏中进行纳什均衡的无悔学习

No-Regret Learning of Nash Equilibrium for Black-Box Games via Gaussian Processes

Minbiao Han, Fengxue Zhang, Yuxin Chen

TL;DR这篇论文研究了学习在黑盒游戏中的挑战，其中底层效用函数对任何代理都是未知的。通过实证查询的形式，我们提供了一种利用高斯过程来识别这类游戏中平衡点的无悔学习算法。我们的方法不仅确保了理论上的收敛速率，还通过实验验证在各种游戏中的有效性。

Abstract

This paper investigates the challenge of learning in black-box games, where the underlying utility function is unknown to any of the agents. While there is an extensive body of literature on the theoretical analy

learning black-box games nash equilibrium gaussian processes experimental validation

发现论文，激发创造

一种贝叶斯优化方法来寻找纳什均衡

采用 Gaussian-process 和 Bayesian optimization 框架，提出适用于 derivative-free 环境下求解游戏均衡的算法，相比传统的基于导数的算法，可以在可接受的黑盒计算成本下，可靠地求得均衡。

Nov, 2016

用于非平稳多智体强化学习的黑盒方法

本文提出了一种 black-box 的方法来学习在非稳态多智能体系统中的均衡，可以适用于广泛的问题，如一般和游戏、潜在游戏和马尔科夫游戏，并在测试次数和非稳态程度的度量下，取得了可接受的性能表现。

Jun, 2023

动态定价中 n 人马尔可夫博弈的近似纳什均衡学习

本文研究了具有竞争性的马尔可夫游戏中的 Nash 均衡学习，使用了一种新的无模型方法找到近似 Nash 均衡，其中策略 - ε 对应性和状态至 ε- 最小策略是用神经网络表示的。在动态价格领域，可以学习到近似的 Nash 均衡。

Jul, 2022

连续博弈中的自适应学习：最优遗憾边界和纳什均衡收敛

本文提出了一种基于乐观的镜像下降的无悔策略算法，可以在非稳态环境下实现 O (sqrt (T)) 的后悔度，并可在变分稳定游戏中收敛到纳什均衡。

Apr, 2021

（马尔可夫）潜力博弈中的纳什均衡收敛和无悔保证

本研究主要探讨了潜在博弈、马尔可夫潜在博弈和 Frank-Wolfe 算法在随机成本和强盗反馈下的应用，提出了一种具有足够探索性和递归梯度估计的变种算法，能证明收敛于纳什均衡并对每个参与者实现亚线性遗憾。该算法同时在潜在博弈中实现了纳什遗憾和 $O (T^{4/5})$ 的遗憾上界，匹配了现有最佳结果，无需额外的投影步骤。通过精确平衡过去样本的重复使用和新样本的探索，我们将结果扩展到了马尔可夫潜在博弈中，将现有最佳纳什遗憾从 $O (T^{5/6})$ 改进至 $O (T^{4/5})$。此外，我们的算法不需要了解游戏的任何信息，如分布误差系数，这提供了更灵活的实际实施。实验结果证实了我们的理论发现，并强调了我们方法的实际有效性。

Apr, 2024

学习双人混合马尔可夫博弈：核函数逼近和相关均衡

本论文提出了一种基于优化原则的在线学习算法，通过在函数空间中最小化对偶差来寻找 Nash 均衡点，在马尔科夫博弈中进行非线性函数逼近，解决了高维函数空间中的探索问题，并扩展了几种算法，其中一个可以实现更紧的遗憾上界，另一个可以应用于神经网络函数逼近的模型错误说明。

Aug, 2022

游戏学习对学习者是否有益？

研究了两个智能体在重复对局中报酬和悔恨之间的权衡，提出了一种广义均衡概念，讨论了不同对手情况下的最优战略和可行方案，探究了利用这种广义均衡学习最优策略的方法。

May, 2023

大规模零和博弈均衡计算的统一视角

本文研究如何在大型零和博弈中计算近似纳什均衡，提出两种方法：无悔在线学习和基于凸凹点公式的梯度方法，并尝试将两种方法进行整合。

Nov, 2014

通过熵正则化的策略逼近学习零和随机博弈中的纳什均衡

通过使用策略近似来减少学习零和随机博弈的纳什均衡的计算成本，我们提出了一种新的 Q-learning 类型算法，该算法使用一系列经过熵正则化的软策略来近似 Q 函数更新期间的纳什策略。我们证明，在某些条件下，通过更新正则化的 Q 函数，该算法收敛于纳什平衡，并演示了该算法快速适应新环境的能力。提供一种动态超参数调度方案来进一步加快收敛速度。应用于多个随机游戏的实证结果验证了所提出的算法收敛于纳什平衡，同时展现了比现有算法更快的加速效果。

Sep, 2020

使用函数遗憾估计来解决游戏

本文提出了一种新的在线学习方法，用于在大型 extensive-form 游戏中最小化后悔。该方法通过在线学习函数逼近器来估计选择特定行动的后悔值，并使用无悔算法根据这些估计值来定义一系列策略。我们证明了该方法的正确性，并证明了只要逼近函数能够实现后悔值，方法就能自我学习并收敛到纳什均衡。我们的技术可以被理解为现有大型游戏中抽象工作的原则性推广；在我们的工作中，抽象和均衡都是在自我博弈中学习的。我们在实验中展示了该方法可以在相同资源条件下实现比最先进的抽象技术更高质量的策略。

Nov, 2014