具有旁观测的路径规划问题——上校们玩捉迷藏

May, 2019

具有旁观测的路径规划问题——上校们玩捉迷藏

Colonel Blotto Games and Hide-and-Seek Games as Path Planning Problems with Side Observations

Dong Quan Vu, Patrick Loiseau, Alonso Silva, Long Tran-Thanh

TL;DR本文研究资源分配游戏的在线版本，将其视为带有旁观者信息路径规划问题，并提出了一种基于EXP3算法的有效学习策略，证明其性能可以匹配先前文献中的最优策略。

Abstract

resource allocation games such as the famous colonel blotto (CB) and hide-and-seek (HS) games are often used to model a large variety of p

发现论文，激发创造

从强盗到专家：浅谈旁观价值

本文探讨了一种对抗性在线学习情境，其中决策者可以在每个阶段选择一个行动，并观察到给定行动的奖励，同时还能获取有关选择其他行动所获得的奖励的信息。研究者们开发出具有可证明的后悔保证的实用算法，这些算法依赖于非平凡的图论信息反馈结构特性。

Jun, 2011

不确定性下的奖励最大化: 利用网络的相关观察

设计考虑了存在网络结构情况下对多臂赌博问题的解决方案，提出两个基于网络结构的策略，并在真实社交网络和路由网络的数据上测试，证明相比于现有策略获得了更多的好处。

Apr, 2017

统一随机和对抗性赌博机与背包问题

本文研究了在预算限制下的拟背包问题下应用 EXP3.BwK 算法解决对抗性赌徒问题，提出了在线学习方案并给出了相应的后悔界。研究表明，当动作成本与预算大小相当时，可实现的后悔界可能会极差，相比于成本受限的情况。

Oct, 2018

零和博弈中快速且强烈学习：在非消失步长时消失后悔

我们展示了一种称为"Fast and Furious"的学习方法，使得在二人零和博弈中时间平均遗憾减少且步长不为零成为可能，此学习方法为最小化-最大化优化和多智能体系统中的研究提供了新的标杆，即使是在最简单的情况下，我们的研究证明该方法的遗憾界限为$\Theta(\sqrt{T})$，在学习率固定的情况下也会稳定收敛于确切的纳什均衡价值。

May, 2019

重新思考部分可观测多智体决策的形式模型

介绍了一种基于事实观测随机博弈（FOSG）建模的解决方案，该解决方案的优势在于可以轻松分解问题，且与博弈树等其他建模方式相关联，这为多智能体决策制定提供了启示。

Jun, 2019

对抗团队游戏与双人游戏的组合：实现抽象化、无悔学习和子博弈求解

该研究旨在通过引入一种名为“团队公共信息”的新游戏表述来解决一个问题，即针对信息不对称的团队在零和游戏中的行为策略，这种表述是高度可解释性的，同时保持了2人树形表达的计算效率和表达能力。

Jun, 2022

了解你的敌人：在Pommerman中使用对手模型研究Monte-Carlo树搜索

本研究探讨了将多人博弈转化为单人和双人博弈的技术，并通过使用启发式和自我对弈等方法，研究了对手建模的现象。同时在监督学习和强化学习环境下展示了多人搜索变异体的有效性。

May, 2023

基于混合正则化的优化探索: 针对偏向监控的对数遗憾与对抗鲁棒性

通过优化的探索，局部监控问题的新型逼近算法提供了在随机和对抗环境中近乎最佳的悔恨界限。

Feb, 2024

基于侧信息的斯塔克伯格博弈中的遗憾最小化

Stackelberg博弈是算法博弈论的一个重要应用，通过引入附加信息和在线设置，可以实现无遗憾学习。

Feb, 2024

谁先行动？优化斯塔克伯格博弈中的游戏顺序与多个机器人

我们考虑了多智能体空间导航问题，在 N 个参与者的 Stackelberg 轨迹游戏中计算社会最优的游戏顺序，即代理人做出决策的顺序以及与之相关的均衡。我们将该问题建模为一个混合整数优化问题，通过求解所有可能的与游戏顺序排列相关的 Stackelberg 游戏的空间。为了解决这个问题，我们引入了一种高效且精确的算法 Branch and Play (B&P)，该算法证明了能收敛于社会最优的游戏顺序和其 Stackelberg 均衡。作为 B&P 的子程序，我们使用并扩展了序列轨迹规划，即一种流行的多智能体控制方法，以可扩展的方式计算给定游戏顺序的有效本地 Stackelberg 均衡。我们通过协调空中交通管制、群体形成和交付车队来展示 B&P 的实际用途。我们发现 B&P 比各种基准方案表现得更好，并计算出了社会最优均衡。

Feb, 2024