关键词cooperative multi-agent systems
搜索结果 - 5
- 逆因子化 Q-Learning 用于合作多智能体模仿学习
该论文提出了一种针对合作多智能体系统的新颖多智能体模仿学习算法,通过使用混合网络聚合分散的 Q 函数,实现了集中式学习,并在具有高度挑战性的竞争性和合作性多智能体游戏环境中进行了广泛实验,表明该算法相对于现有的多智能体模仿学习算法具有显著的 - 社交和非社交罪恶的共同进化
研究表明,在结构化人群设置中,社会和非社会的负疚感可以通过聚类和情感倾向策略演化和部署,从而使它们免受剥削者的侵害,特别是在非社交策略的情况下,这些策略的成本更低。这些发现对于自组织的和分布式的合作多智能体系统的设计和工程具有重要的启示。
- 重新审视 QMIX: 通过梯度熵正则化实现区分式信用分配
本文针对合作多智能体系统中个体信用分配问题,重新审视 QMIX 算法。提出一种新的信用分配度量方法,并通过实证研究表明 QMIX 在信用分配度量方面能力有限。引入基于 QMIX 的梯度熵正则化策略,以提高信用分配能力、改善机器学习性能。实验 - IJCAI通过学习队友模型实现的分散 MCTS
本文提出一种可训练的在线分散式规划算法,基于分散蒙特卡洛树搜索,结合先前的剧集运行学习的队友模型,利用深度学习和卷积神经网络生成精确的策略逼近器,提高了策划性能。此算法支持去中心化在线规划的多代理系统.
- 反事实多智能体策略梯度
通过提出一种新的多智能体演员 - 评论家方法,使用中心化评论家估算 Q 函数和分散化演员来优化智能体的策略,使用反事实基线来处理多智能体学分分配的挑战,该方法能够有效地学习到分散式问题的解决方案,并在星际争霸微操作测试环境中显著提高了绩效表