非对称信息随机博弈中的初阶信念猜想式在线学习
我们研究了一个 IT 基础设施的自动化安全响应,并将攻击者和防御者之间的交互形式化为一种部分观察到的非稳定游戏。我们通过估计模型的概率性猜想来捕捉基础设施和玩家意图的不确定性,利用贝叶斯学习和回滚的方法在线学习有效的游戏策略,并证明了推测收敛于最佳拟合,并提供了基于推测模型的性能改进的界限。我们提出了 Berk-Nash 均衡的一种变体来刻画游戏的稳态。通过一个高级持续威胁的使用案例来展示我们的方法。基于测试平台的模拟研究表明,我们的方法能够产生适应不断变化的环境的有效安全策略,并且我们还发现相比当前的强化学习技术,我们的方法能够实现更快的收敛。
Feb, 2024
我们研究了分布式和策略性在线学习问题,通过对不完全信息和附加信息两种不同情境进行研究,发现追随者在有限信息情境中按照局部最优策略响应领导者的行动,然而在附加信息情境中,追随者可以通过策略性行动操控领导者的奖励信号,以使得领导者的策略收敛到对自己更有利的均衡状态。基于这些洞察,我们针对这两种情境研究了分布式在线学习,主要贡献是提出了最后迭代收敛和样本复杂度方面的结果。尤其值得注意的是,我们设计了一种新的操控策略,用于处理附加信息情境,并证明它相对于最优应对策略具有内在优势。我们的理论结果也得到了实证结果的支持。
May, 2024
本研究提出了一种基于信念空间的策略学习模型,可以在测试时间解码和适应新颖的规约,从而显著提高各种策略池中的特定反应的搜索和训练,同时增强智能体规约的可解释性和可解释性。
Jun, 2022
本论文提出了一种基于因果关系学习和不变风险最小化的 Reconfigurable Intelligent Surface 相移配置方法,通过多个神经网络模型在不同环境下预测最佳相位值并实现了 15% 的预测精度提升。
Jun, 2023
通过在 LOLA 算法中引入一种方法称为 Consistent LOLA,其中学习更新功能在彼此影响时保持一致,作者在广义和游戏模型中进行了一系列实验,发现这种方法比 HOLA 和 LOLA 更容易收敛,并能够找到更加符合社会期望的解决方案。
Mar, 2022
本文研究了关于平均奖励随机博弈的在线强化学习算法 UCSG,在同类算法中取得了更好的效果,可以获得亚线性遗憾和稳定收敛的同时检索到均衡状态,提高了博弈的竞争性能。
Dec, 2017
本文研究了基于随机博弈模型的多智能体强化学习中,网络结构化玩家相互作用,混合合作与竞争以及有限的全局信息对于个体决策造成的挑战以及信息可用性对于不同学习范式的影响。并通过实验,探索了不同 MARL 范式的结果,例如集中式学习分散式执行。
May, 2022
本文介绍了一种带有私有数据共享能力的不完美信息的并发博弈结构子类,这些结构可以通过特定的 ATL 片段模型检查,被称为 A-cast 系统,可以编码安全领域的复杂问题,如身份验证中的恐怖主义欺诈攻击。
Apr, 2022
通过适应性算法的考虑以确保比修改行为所能达到的结果更好,我们可以基于相关学习动态产生新的博弈理论分析,这样做比基于平衡策略算法更加有效,因为前者可以处理非零和多人博弈问题。我们重新审视了博弈理论中的中介均衡和偏差类型,证明了没有可行的概念包含所有其他类型,并引出了一个追溯与规避策略算法的平衡类别的定义。
Dec, 2020
本文探讨了在未知系统统计数据的情况下,利用在线学习检测随机网络优化中的系统控制技术,证明了两个在线学习辅助控制技术 OLAC 和 OLAC2 的性能保证,并通过模拟结果证明了这些算法在实践中的优越性。
Apr, 2014