$ε$- 优化地求解零和 POSG

May, 2024

$ε$-Optimally Solving Zero-Sum POSGs

Erwan Escudie, Matthia Sabatelli, Jilles Dibangoye

TL;DR该研究论文介绍了一种解决零和部分可观察随机博弈问题的方法，通过将原始游戏嵌入一个称为占用马尔可夫游戏的新游戏中，可以应用贝尔曼最优原理来解决该问题。此方法通过利用价值函数的均匀连续性特性来提高解决方法的可扩展性，并且提出了一种比现有更新规则更高效的算子，降低了线性规划的约束数，并且展示了利用这些发现的基于点的值迭代算法在各种领域中提高了现有方法的可扩展性并保持了保证。

Abstract

A recent method for solving zero-sum partially observable stochastic games (zs-POSGs) embeds the original game into a new one called the occupancy Markov game. This reformulation allows applying bellman's principle of o

zero-sum partially observable stochastic games occupancy markov game bellman's principle of optimality linear program point-based value iteration algorithms

发现论文，激发创造

HSVI 能够解决零和部分可观察随机博弈

通过数学分析并且创新引入 HSV1-like 算法解决动态规划问题，其优于现有的线性规划和迭代方法。

Oct, 2022

零和马尔可夫博弈中的价值函数逼近

研究了在零和 Markov 博弈中的价值函数逼近问题，提出了适用于 Markov 博弈的强化学习算法，并针对在两人同时进行移动的特殊问题，给出了 LSTD 和时间差分学习的线性价值函数逼近的收敛保障，通过 LSPI 算法，将该算法应用于足球领域和流量控制问题中，并证明了价值函数逼近在 Markov 博弈中的可行性。

Dec, 2012

零和马尔可夫博弈中通用的函数逼近

本文主要研究带有参数化的一般函数类的两人零和有限时间跨度马尔科夫博弈，在研究中提出了可行的算法，包括基于模型的算法和无模型算法，并且在状态 - 动作对数 $d$ 线性特征的情况下取得了比现有算法更好的效果，同时提出了最小极小规模的模型维度等概念来解决抽样复杂度的问题，最终得出了在模型上算法抽样复杂度可以通过将见证人等级推广到马尔科夫博弈来边界化。

Jul, 2021

具有神经感知机制的部分可观测随机博弈

提出了神经符号部分可观测随机博弈（NS-POSGs）模型，针对部分可观测的环境及基于连续数据的数据驱动方法，引入了感知机制，提出了基于粒子置信度的一侧 NS-HSVI 方法，用于近似计算一侧 NS-POSGs 的值，并在实验中证明了这一方法对于具有多面体形式的神经网络的实际适用性。

Oct, 2023

具有结构转移的零和马尔可夫博弈中可证明有效的虚拟博弈策略优化

本研究在多智能体竞争的环境下对零和结构化 Markov 博弈问题的策略优化算法进行了提出和分析，考虑通过上置界乐观算法与虚拟博弈相结合的同时策略优化，从而使双方智能体的总体最优性差距以 $\widetilde {O}(\sqrt {K})$ 的速度收敛，其中 $K$ 为回合数量。

Jul, 2022

使用函数逼近和相关均衡学习零和同时行动马尔可夫博弈

本研究针对具有线性结构的两人零和有限马尔可夫博弈提出了一种基于乐观价值迭代的增强学习算法，该算法通过构建价值函数的上下置信区间，并用 Coarse Correlated Equilibrium 求解泛化和纳什均衡问题，实现了性能的总时间平方根复杂度的上限。

Feb, 2020

利用深度强化学习进行无限时域达到 - 避免零和博弈

本文主要研究了无限时间视角下的 reach-avoid zero-sum 博弈问题，提出了基于收缩 Bellman backup 的价值函数和 Conservative Q-Learning 方法，求解约束条件下的到达目标集和控制策略的可行解。

Mar, 2022

弱可达情况下的零和马尔可夫博弈纳什均衡学习

通过利用 Tsallis 熵正则化的值迭代方法，我们提出了一种合理且收敛的算法，在弱条件下以无耦合和单时间尺度算法的方式高效地实现了近似纳什均衡。该算法在多项式时间内学习近似纳什均衡，仅需要存在一个诱导不可约和非周期性马尔可夫链的策略对，从而明显减弱了过去的假设。我们的分析利用了负漂移不等式，并引入了 Tsallis 熵的新特性，这些特性具有独立的研究价值。

Dec, 2023

无模型改进的零和马尔科夫博弈的高效样本算法

为了解决两个玩家零和马尔可夫博弈问题，在多智能体强化学习的理论研究中引起了越来越多的关注。通过提出一种无模型的基于阶段的 Q 学习算法，我们展示了该算法能够与最佳的有模型算法达到相同的样本复杂度，进而首次证明了无模型算法在与模型有关的 $H$ 上的依赖性上能够达到相同的最优性。

Aug, 2023

面向安全多智体强化学习的可证明高效广义拉格朗日策略优化

本文提出一种使用基于占用测度的拉格朗日优化方法来解决约束马尔可夫博弈的在线安全强化学习算法，经更新的 minimax 决策原始变量和双重变量，达到亚线性后悔率和约束违规率，实现对马尔可夫博弈的高效学习。

May, 2023