多智能体逆强化学习用于确定性一般和随机博弈
本文提出了一种贝叶斯框架,用于解决多智能体逆强化学习问题,在多智能体对战场景下建立了一种理论基础,并针对双智能体零和MIRL问题提出了一种贝叶斯解决方法,结果表明,奖励先验中协方差结构比均值更重要。
Mar, 2014
本文提出了一种基于SwarMDP框架的针对分布式多智能体相互作用的逆向强化学习算法,在该框架中,我们证明了与智能体相关的值函数相等,通过引入一种新异构学习策略,我们证明了该框架能够有效地产生有意义的本地奖励模型。
Feb, 2016
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
本文对逆强化学习领域的现有文献进行了分类调查,介绍了IRL问题和其挑战,讨论了目前的解决方法,并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法,同时总结了该领域的研究进展和当前未解决的问题。
Jun, 2018
本文提出了一种新的多智能体逆强化学习框架(MA-AIRL),有效地解决了高维空间和未知动态的马尔科夫博弈问题,并展示了在策略模仿方面,MA-AIRL显著优于现有方法。
Jul, 2019
使用新类别的分散式算法-V-learning解决了多智能体强化学习中联合行动空间指数级增长的问题,在有限态和操作情况下,能够学习Nash均衡、相关均衡和粗略相关均衡。
Oct, 2021
该研究探讨了如何设计自主智能体,使其在没有访问联合奖励函数的情况下能够有效地与潜在的次优合作伙伴进行合作。我们将这个问题建模为一个合作的、情节性的两个代理Markov决策过程。我们分析了该交互式两个代理场景中关于奖励函数的信息如何被获得,结果显示学习代理的策略对转移函数具有显著影响时,奖励函数可以被高效地学习。
Nov, 2021
本文探讨了在协作场景中人们如何相互交互尤其是在个体了解队友很少的情况下,通过多智能体逆强化学习(MIRL)来推断每个个体行为背后的奖励函数。针对这个问题,我们提出一个新颖的 MIRL-ToM 模型,结合了理论思维(Theory of Mind)和最大熵 IRL,成功地恢复了用于有知晓或无知晓队友互动的奖励。
Feb, 2023
本研究论文提出了一种利用强化学习来实现团队合作与跨团队竞争的线性二次结构的方法,并通过均值场设定下的广义和型场博弈,证明了该方法能够有效地达到纳什均衡。通过将问题分解为子问题,并利用时间独立对角优势下的后向递归离散时间哈密顿-雅可比-艾萨克斯方程,进一步证明了多人迅速消退自然策略梯度算法能够收敛到全局纳什均衡。实验结果验证了该方法在实践中的优点。
Mar, 2024