具有旁观测的路径规划问题——上校们玩捉迷藏
本文探讨了一种对抗性在线学习情境,其中决策者可以在每个阶段选择一个行动,并观察到给定行动的奖励,同时还能获取有关选择其他行动所获得的奖励的信息。研究者们开发出具有可证明的后悔保证的实用算法,这些算法依赖于非平凡的图论信息反馈结构特性。
Jun, 2011
设计考虑了存在网络结构情况下对多臂赌博问题的解决方案,提出两个基于网络结构的策略,并在真实社交网络和路由网络的数据上测试,证明相比于现有策略获得了更多的好处。
Apr, 2017
本文研究了在预算限制下的拟背包问题下应用 EXP3.BwK 算法解决对抗性赌徒问题,提出了在线学习方案并给出了相应的后悔界。研究表明,当动作成本与预算大小相当时,可实现的后悔界可能会极差,相比于成本受限的情况。
Oct, 2018
我们展示了一种称为"Fast and Furious"的学习方法,使得在二人零和博弈中时间平均遗憾减少且步长不为零成为可能,此学习方法为最小化-最大化优化和多智能体系统中的研究提供了新的标杆,即使是在最简单的情况下,我们的研究证明该方法的遗憾界限为$\Theta(\sqrt{T})$,在学习率固定的情况下也会稳定收敛于确切的纳什均衡价值。
May, 2019
介绍了一种基于事实观测随机博弈(FOSG)建模的解决方案,该解决方案的优势在于可以轻松分解问题,且与博弈树等其他建模方式相关联,这为多智能体决策制定提供了启示。
Jun, 2019
该研究旨在通过引入一种名为“团队公共信息”的新游戏表述来解决一个问题,即针对信息不对称的团队在零和游戏中的行为策略,这种表述是高度可解释性的,同时保持了2人树形表达的计算效率和表达能力。
Jun, 2022
本研究探讨了将多人博弈转化为单人和双人博弈的技术,并通过使用启发式和自我对弈等方法,研究了对手建模的现象。同时在监督学习和强化学习环境下展示了多人搜索变异体的有效性。
May, 2023
我们考虑了多智能体空间导航问题,在 N 个参与者的 Stackelberg 轨迹游戏中计算社会最优的游戏顺序,即代理人做出决策的顺序以及与之相关的均衡。我们将该问题建模为一个混合整数优化问题,通过求解所有可能的与游戏顺序排列相关的 Stackelberg 游戏的空间。为了解决这个问题,我们引入了一种高效且精确的算法 Branch and Play (B&P),该算法证明了能收敛于社会最优的游戏顺序和其 Stackelberg 均衡。作为 B&P 的子程序,我们使用并扩展了序列轨迹规划,即一种流行的多智能体控制方法,以可扩展的方式计算给定游戏顺序的有效本地 Stackelberg 均衡。我们通过协调空中交通管制、群体形成和交付车队来展示 B&P 的实际用途。我们发现 B&P 比各种基准方案表现得更好,并计算出了社会最优均衡。
Feb, 2024