本论文提出一种使用 copula 来明确建模多智能体系统中相关性和协调性的方法,该方法可以分别学习捕捉每个智能体局部行为模式的边缘分布以及完全捕捉智能体之间依赖结构的 copula 函数,实验结果表明,该模型在动作预测任务中表现优于现有基线,并能够生成接近于专家演示的新轨迹。
Jul, 2021
该论文提出了一种针对合作多智能体系统的新颖多智能体模仿学习算法,通过使用混合网络聚合分散的 Q 函数,实现了集中式学习,并在具有高度挑战性的竞争性和合作性多智能体游戏环境中进行了广泛实验,表明该算法相对于现有的多智能体模仿学习算法具有显著的有效性。
Oct, 2023
本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架,它建立在广义反向强化学习的基础上,并引入了实用的多智能体演员 - 评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。
Jul, 2018
本文提出了一种基于相互关联策略的多智能体系统建模与仿真方法,并通过去近似敌方策略恢复代理策略的方法,设计了一种去中心化对抗性学习算法,实现了模型的训练和执行,实验证明了该算法的优越性,代码可在 https://github.com/apexrl/CoDAIL 中获取。
Jan, 2020
通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境,我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步:从随机的行为到简单的球追逐,最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案,可以在没有预定义评估任务或人类基准的情况下评估代理的性能。
Feb, 2019
我们提出了一个用于多智能体系统中建模代理行为的泛化学习框架,将代理建模作为表示学习问题,并使用模仿学习和代理识别的算法进行无监督学习,以构建代理策略的表示形式。在具有挑战性的高维连续控制和通信合作环境中,我们经验证明该框架对于使用深度强化学习进行无监督聚类和策略优化的监督预测任务具有实用价值。
Jun, 2018
本文提出和研究了一种隐含模仿的形式模型,通过观察导师,强化学习代理可以提取关于其自身能力和状态空间中未访问部分的相对价值的信息,并阐述了隐含模仿的好处,通过指导单个和多个导师来证明性能和收敛性有所提高。
Jun, 2011
本研究通过对演示者专业技能的无监督学习,开发了一种可同时学习演示者政策和专业技能水平的联合模型,并通过过滤每种演示者的次优行为,训练出可以优于任何演示者的单一策略,并可用于估计任意状态下演示者的专业技能,在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。
Feb, 2022
本文提出了一种隐式的基于模型的多智能体强化学习方法,基于价值分解方法,能够提高在不同部分可观察的马尔可夫决策过程领域中的样本效率。
Apr, 2022
该论文提出了一种基于强化学习的框架,用于学习代理人策略的潜在表示,通过学习潜在的动态关系,以影响其他代理人,推动其向适合于协同适应的策略方向发展,该方法在多个模拟领域和现实世界的空气曲棍球比赛中表现优异。
Nov, 2020