用于非平稳多智体强化学习的黑盒方法

Jun, 2023

用于非平稳多智体强化学习的黑盒方法

A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning

Haozhe Jiang, Qiwen Cui, Zhihan Xiong, Maryam Fazel, Simon S. Du

TL;DR本文提出了一种 black-box 的方法来学习在非稳态多智能体系统中的均衡，可以适用于广泛的问题，如一般和游戏、潜在游戏和马尔科夫游戏，并在测试次数和非稳态程度的度量下，取得了可接受的性能表现。

Abstract

We investigate learning the equilibria in non-stationary multi-agent systems and address the challenges that differentiate multi-agent learning from single-agent learning. Specifically, we focus on games with

multi-agent systems equilibria bandit feedback nonstationarity regret

发现论文，激发创造

无先验知识的非平稳强化学习：一种最优黑盒方法

本文提出一种黑盒化的方法，将某些强化学习算法在（近）平稳环境下的优化遗憾转化为在非平稳环境下的优化动态遗憾，并且不需要事先了解非平稳度。通过把不同的算法插入到这个黑盒中，我们给出一系列的例子，表明该方法不仅可以重构最近通过特殊算法实现的（上下文）多臂赌博机问题，而且还可以显著改进广义线性赌博机问题、周期性马尔科夫决策问题和无限时间马尔科夫决策问题的状态，特别是在大多数情况下，我们的算法可以达到最优动态遗憾。

Feb, 2021

通过高斯过程在黑盒游戏中进行纳什均衡的无悔学习

这篇论文研究了学习在黑盒游戏中的挑战，其中底层效用函数对任何代理都是未知的。通过实证查询的形式，我们提供了一种利用高斯过程来识别这类游戏中平衡点的无悔学习算法。我们的方法不仅确保了理论上的收敛速率，还通过实验验证在各种游戏中的有效性。

May, 2024

多智能体环境中学习的调研：应对非稳态问题

该研究综述了游戏理论、强化学习和多臂老虎机的工具等方面对对手诱导的非稳态进行处理的新方法，基于对算法建模和面对非稳态的方法分为五类，并将一系列前沿算法分类，以便更好地处理不同类别的环境中的问题，并指出了未来的研究方向。

Jul, 2017

多人随机博弈中的学习

本文研究多人随机博弈中同时学习的问题，通过生成算法获得相关均衡，包括 extensive-form correlated equilibrium 和普通 coarse correlated equilbrium，并提供了一些能够多项式时间内解决的特殊情况。

Oct, 2022

非平稳线性赌臂问题的简单解法

本文研究了非平稳线性臂问题，提出了一种基于重启策略的算法以平衡利用和探索，并证明了该算法的动态遗憾值，同时还解决了现有算法中的严重技术缺陷问题。

Mar, 2021

非平稳对决多臂老虎机的最优高效动态遗憾算法

本文研究了 $K$- 武斗器下在非固态或时变偏好情况下动态遗憾最小化问题，设计了能够有效解决此问题的算法，证明了算法的最优性，并进行了大量模拟和与其他算法对比的实验。

Nov, 2021

对漂移进行对冲：在非稳态环境下学习优化

介绍针对非静态赌博机环境的最新数据驱动决策算法，采用了随机和对手式学习算法的非传统结合方法，通过滑动窗口 - 置信界算法，针对各种非静态赌博机问题实现了最优动态遗憾边界，并通过数字实验验证了算法的超越性能。

Mar, 2019

学习在非稳态下进行优化

介绍了一种新的非平稳线性随机赌博算法，应用于动态定价和广告分配领域，并使用滑动窗口 UCB 算法实现了最优动态后悔上界。

Oct, 2018

非平稳环境下高效应对背景干扰的 Bandit 算法

本研究开发了多种高效的上下文推断算法，为非平稳环境提供了有效的解决方案，具有动态适应分布变化的能力，同时通过对各种标准回归进行分析，证明了在时间和空间成本上都能达到最优的效果。

Aug, 2017

连续博弈中的自适应学习：最优遗憾边界和纳什均衡收敛

本文提出了一种基于乐观的镜像下降的无悔策略算法，可以在非稳态环境下实现 O (sqrt (T)) 的后悔度，并可在变分稳定游戏中收敛到纳什均衡。

Apr, 2021