该论文介绍了利用深度网络来模拟人类心智状态,并在多智能体环境中进行信念预测和强化学习的初步实验结果。
Jul, 2023
本文介绍了一种基于神经网络和任务多项式结构的对手建模方法,该方法能够应用于多智能体环境下的策略自适应,通过对足球和智力竞赛等游戏的模拟实验可知该方法胜于深度 Q 网络及其衍生方法。
Sep, 2016
本文提出了一个基于 farsighted objective 的新优化目标以及一种新的多智能体强化学习方法,实现了优于现有基线结果的长期性能。
Mar, 2022
本文探讨了在协作场景中人们如何相互交互尤其是在个体了解队友很少的情况下,通过多智能体逆强化学习(MIRL)来推断每个个体行为背后的奖励函数。针对这个问题,我们提出一个新颖的 MIRL-ToM 模型,结合了理论思维(Theory of Mind)和最大熵 IRL,成功地恢复了用于有知晓或无知晓队友互动的奖励。
Feb, 2023
多代理系统中,对智能机器代理进行适应性策略设计时,代理建模是至关重要的,通过代理建模可以理解其他代理的行为并提取有意义的策略表示,为增强自我代理的适应性策略提供帮助。这篇研究以对比学习为基础的代理建模方法(CLAM)只依赖于自我代理在训练和执行过程中的局部观察,可以实时生成一致且高质量的策略表示,且在合作和竞争多代理环境中取得了最先进的结果,突显了对比学习为基础的代理建模在增强式学习中的潜力。
Dec, 2023
本文提出了在多个智能体环境中,为每个 RL 智能体提供直接向其它智能体给予奖励的能力,并通过学习后的激励函数影响其它智能体,从而达到协作的目的。实验结果显示,在 challenging general-sum Markov games 中,相对于标准 RL 和对手建模代理,这种方法在寻找最优的分工方面取得了巨大的成功。
Jun, 2020
本研究提出一种信息理论规则化方法,以学习多智能体强化学习中的合作和竞争策略,结果在两个简单的非对称信息博弈中表明,使用我们提出的方法学习到的合作(竞争)策略会带来更多(更少)的奖励。
Aug, 2018
本文提出了一种算法框架,用于在不完美信息的非对称博弈中学习鲁棒策略,并通过对手建模来推断对手类型,使用多智能体强化学习技术通过自我博弈学习对手模型,并使用集成训练方法来提高策略的稳健性,借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。
Sep, 2019
本文提出了一种隐式的基于模型的多智能体强化学习方法,基于价值分解方法,能够提高在不同部分可观察的马尔可夫决策过程领域中的样本效率。
Apr, 2022
本研究提出了一种名为 “Actor-Mimic” 的多任务学习和迁移学习方法,通过深度强化学习和模型压缩技术来训练一个单一的策略网络,并通过多个专家教师的指导来学习在不同任务中的行为,并使用先前的知识解决新任务。研究结果表明,该方法的表征能力可以通过无先验的专家指导来推广到新的任务并加速学习。本方法可以应用于多样的问题,为了说明其效果,我们在 Atari 游戏上进行了测试。
Nov, 2015