具有不完美信息的 Omega 正则博弈算法

Jun, 2007

具有不完美信息的 Omega 正则博弈算法

Algorithms for Omega-Regular Games with Imperfect Information

PDF

Krishnendu Chatterjee, Laurent Doyen, Thomas A. Henzinger, <br> Jean-Francois Raskin

TL;DR本文研究了基于观察的策略在具有 ω- 正则目标的图上的两人回合制游戏中的应用。我们提出了计算状态集合的固定点算法，解决了玩家使用确定性和随机化观察策略进行游戏的问题。

Abstract

We study observation-based strategies for two-player turn-based games on graphs with →

observation-based strategies two-player turn-based games graphs omega-regular objectives fixed-point algorithm

发现论文，激发创造

部分可观察马尔可夫决策过程的定性分析

本文针对部分可观察 Markov 决策过程（POMDPs）和 ω 正则目标，研究了基于观测的策略，并解决了定性分析问题的计算复杂度和最优内存界限。

Sep, 2009

无模型强化学习中的 Omega-Regular 目标

以非模式的方式提供了《ӏ–正则》监控下的最终快模满觉目标。

Sep, 2018

从庞加莱回归到不完全信息博弈的收敛：通过正则化寻找均衡

研究了在顺序不完美信息游戏中遵循规则的领导者动态，推广了 Poincaré 循环结果，并探讨了通过调整奖励来建立收敛保证的技术，进而构建了精确收敛到 Nash 平衡的算法，为零和二人不完美信息游戏的无模型算法提供了新思路。

Feb, 2020

具有不完全信息的广义博弈的近最优学习

本文提出两种新算法：平衡在线镜像下降和平衡对策后悔最小化，通过整合平衡探索策略到它们的经典对应物算法，解决学习不完美信息的广义零和游戏的近似 Nash 均衡问题。同时，将结果推广到学习多人游戏的粗略相关均衡。

Feb, 2022

基于 HSVI 的部分观测随机博弈的在线极小化策略与神经感知机制

我们提出了一种变种的连续状态部分可观测的随机博弈模型，其中包含神经感知机制和不对称信息结构。我们首次提出了一种高效的在线计算 ε- 极小极大策略配置的方法，每个阶段仅需解决一个线性规划问题，而不是复杂的对手反事实值估计。对于部分知情的智能体，我们提出了一种持续解决方法，使用由启发式搜索值迭代（HSVl）预先计算的下界代替对手反事实值。对于完全知情的智能体，我们提出了一种推断信念策略，该智能体基于 HSVl 的（离线）上界维护对部分知情智能体信念的推断，从而保证到初始信念上两智能体已知的游戏价值的 ε- 距离。

Apr, 2024

将不完备信息从双人零和博弈中抽象出来

研究表明，通过公开玩家策略，可以从常见的收益游戏中摆脱不完美的信息，但同样的方法不能应用于两人零和游戏，该论文提出利用正则化平衡的方法来解决这个问题，以便计算这些均衡点可以被视为完美信息问题。

Jan, 2023

具有结构转移的零和马尔可夫博弈中可证明有效的虚拟博弈策略优化

本研究在多智能体竞争的环境下对零和结构化 Markov 博弈问题的策略优化算法进行了提出和分析，考虑通过上置界乐观算法与虚拟博弈相结合的同时策略优化，从而使双方智能体的总体最优性差距以 $\widetilde {O}(\sqrt {K})$ 的速度收敛，其中 $K$ 为回合数量。

Jul, 2022

对抗对手下的学习马尔科夫博弈：高效算法与基本极限

本文研究了在零和游戏中应用没有遗憾学习算法对抗自适应对手并取得最优结果的问题，并给出了一组正负结果，其中提出的新算法在普通的策略类别小或对手策略类别小时，可取得平均的 regret 较小的结果。

Mar, 2022

广义形式博弈中的本地化和自适应镜像下降

我们研究了如何在带有轨迹反馈的零和不完全信息博弈中学习 ε- 最优策略，通过应用自适应在线镜像下降算法，在信息集中使用逐渐减小的学习率和正则化损失，我们证明了该方法在高概率下能够保证收敛速度为～T^(-1/2)，并且在理论上的最佳学习率和采样策略选择时，对于游戏参数的依赖性接近最优。为了实现这些结果，我们扩展了对 OMD 稳定性的概念，允许随时间变化的凸增量正则化。

Sep, 2023

马尔可夫决策过程的多目标模型检查

提供了一种高效的算法来解决多目标模型检验问题，该算法通过随机化策略来实现，在多项式时间内计算了一组 ω -regular 性质的近似 Pareto 曲线，并使用图论方法分析了一些定性多目标模型检验问题。

Oct, 2008