非对称信息随机博弈中的初阶信念猜想式在线学习

Feb, 2024

非对称信息随机博弈中的初阶信念猜想式在线学习

Conjectural Online Learning with First-order Beliefs in Asymmetric Information Stochastic Games

Tao Li, Kim Hammar, Rolf Stadler, Quanyan Zhu

TL;DR针对现有离线方法的局限性，本文提出了一种推测的在线学习 (COL) 方案，用于处理复杂的社会技术系统中存在信息不对称的随机博弈，通过利用隐藏状态的初级信念和对手策略的主观预测来通过贝叶斯学习校准猜测，并证明了 COL 的猜测在松弛贝叶斯一致性下渐近一致。实证结果表明，COL 在非稳态攻击情况下优于最先进的强化学习方法。

Abstract

stochastic games arise in many complex socio-technical systems, such as cyber-physical systems and IT infrastructures, where information asymmetry presents challenges for decision-making entities (players). Existing computational methods for asymmetric information →

stochastic games asymmetric information stochastic games online learning conjectural online learning bayesian learning

发现论文，激发创造

通过在线学习和自适应猜想实现自动安全响应

我们研究了一个 IT 基础设施的自动化安全响应，并将攻击者和防御者之间的交互形式化为一种部分观察到的非稳定游戏。我们通过估计模型的概率性猜想来捕捉基础设施和玩家意图的不确定性，利用贝叶斯学习和回滚的方法在线学习有效的游戏策略，并证明了推测收敛于最佳拟合，并提供了基于推测模型的性能改进的界限。我们提出了 Berk-Nash 均衡的一种变体来刻画游戏的稳态。通过一个高级持续威胁的使用案例来展示我们的方法。基于测试平台的模拟研究表明，我们的方法能够产生适应不断变化的环境的有效安全策略，并且我们还发现相比当前的强化学习技术，我们的方法能够实现更快的收敛。

Feb, 2024

广义和谐史塔克伯格博弈中的去中心化在线学习

我们研究了分布式和策略性在线学习问题，通过对不完全信息和附加信息两种不同情境进行研究，发现追随者在有限信息情境中按照局部最优策略响应领导者的行动，然而在附加信息情境中，追随者可以通过策略性行动操控领导者的奖励信号，以使得领导者的策略收敛到对自己更有利的均衡状态。基于这些洞察，我们针对这两种情境研究了分布式在线学习，主要贡献是提出了最后迭代收敛和样本复杂度方面的结果。尤其值得注意的是，我们设计了一种新的操控策略，用于处理附加信息情境，并证明它相对于最优应对策略具有内在优势。我们的理论结果也得到了实证结果的支持。

May, 2024

合作人工智能的广义信念

本研究提出了一种基于信念空间的策略学习模型，可以在测试时间解码和适应新颖的规约，从而显著提高各种策略池中的特定反应的搜索和训练，同时增强智能体规约的可解释性和可解释性。

Jun, 2022

通过因果表示进行可重构智能表面联合学习游戏

本论文提出了一种基于因果关系学习和不变风险最小化的 Reconfigurable Intelligent Surface 相移配置方法，通过多个神经网络模型在不同环境下预测最佳相位值并实现了 15% 的预测精度提升。

Jun, 2023

COLA: 具有对手感知的一致学习

通过在 LOLA 算法中引入一种方法称为 Consistent LOLA，其中学习更新功能在彼此影响时保持一致，作者在广义和游戏模型中进行了一系列实验，发现这种方法比 HOLA 和 LOLA 更容易收敛，并能够找到更加符合社会期望的解决方案。

Mar, 2022

随机博弈中的在线强化学习

本文研究了关于平均奖励随机博弈的在线强化学习算法 UCSG，在同类算法中取得了更好的效果，可以获得亚线性遗憾和稳定收敛的同时检索到均衡状态，提高了博弈的竞争性能。

Dec, 2017

具有网络信息流的一般总和随机博弈

本文研究了基于随机博弈模型的多智能体强化学习中，网络结构化玩家相互作用，混合合作与竞争以及有限的全局信息对于个体决策造成的挑战以及信息可用性对于不同学习范式的影响。并通过实验，探索了不同 MARL 范式的结果，例如集中式学习分散式执行。

May, 2022

信息分享系统中战略能力的模型验证

本文介绍了一种带有私有数据共享能力的不完美信息的并发博弈结构子类，这些结构可以通过特定的 ATL 片段模型检查，被称为 A-cast 系统，可以编码安全领域的复杂问题，如身份验证中的恐怖主义欺诈攻击。

Apr, 2022