无耦合学习承诺微分斯塔克尔贝格均衡
在嘈杂的赌徒反馈环境中,理论研究了 Stackelberg 均衡的样本有效学习,识别了 Stackelberg 均衡真实值与使用有限噪声样本估计版本之间的基本差距,并建立了与其相匹配的下限。
Feb, 2021
本研究在非协调控制下,针对无限期、折现、零和马尔可夫博弈中的多智能体强化学习进行了研究。提出了一种无限期 Q 学习动态,该学习动态在没有集中控制器的情况下收敛到 Nash 均衡点,并且可以有效应对非固定环境的挑战。
Jun, 2021
研究了带有领导者和追随者的多人普遍和马尔可夫博弈,关注追随者为短视的情况,在在线和离线设置下开发了一些优化和悲观变种的最小二乘值迭代的强化学习算法以求得Stackelberg-Nash均衡(SNE)。它们可在大状态空间的函数逼近工具中简单应用,并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性,为解决追随者为短视的普遍和马尔可夫博弈的SNE建立了第一个可以被证明高效的强化学习算法。
Dec, 2021
本研究提出了一种将 Stackelberg 平衡搜索实现为多智能体强化学习问题的通用框架,并借助多任务和元强化学习技术实现了一种使用情境策略的方法,在标准和新颖的基准领域上进行了实验,并显示出较以前的方法大大提高的样本效率。同时,我们探讨了超出我们框架边界的算法设计所带来的影响。
Oct, 2022
该论文提出了一种基于Stackelberg equilibrium的、具有异步行动协调的N级政策模型,通过共享条件超网络,使智能体可以学习不同的策略而不导致学习成本、存储成本以及扩展性的增加。实验证明,该模型在重复博弈场景中可以成功收敛到Stackelberg equilibrium,对于合作任务和混合任务的完成也表现非常出色。
Apr, 2023
使用 Stackelberg Multi-Agent Deep Deterministic Policy Gradient (ST-MADDPG) 的算法,优化自我进化过程中的智能体沟通模式,提高多智能体学习的有效性和鲁棒性。
May, 2023
探讨了两个学习代理(如推荐系统或聊天机器人)相互交流并独立学习的情况下,每个代理的目标和效用如何受到影响,并提出了一种宽容于小学习误差的放松后的后悔基准,以及相应的学习算法,实现了接近最优水平的后悔率。
Feb, 2024
本研究解决了在无悔追随者约束下,两人Stackelberg博弈中玩家能否达到Stackelberg均衡的问题。我们提出了当追随者策略为奖励平均或变换奖励平均时,两位玩家总能实现均衡,并进一步证明无悔约束下的均衡与追随者效用差异的严格上限。这表明在常和两人Stackelberg博弈中,保持无悔行动序列可以维持总最优效用的边界。
Aug, 2024