- CooHOI: 学习通过操纵对象动力学的协作人 - 物互动
通过合作人物 - 目标交互(CooHOI)框架,通过两阶段学习范式:个体技能获取和随后的迁移,解决多人物物体运输问题,实现团队成员之间的隐式沟通和协调。
- 多智能体协作中个体和整体目标的对齐
通过建模为可微分博弈,并引入一种名为利他梯度调整(AgA)的新型优化方法,本研究成功地实现了个体和集体目标之间的对齐,加速了收敛并促进了利他和公平的协作。
- 混合 Q- 函数:用于连续动作领域的合作 MARL 中推进基于价值的方法
本文提出了一种新的多智能体价值算法,混合 Q - 函数(MQF),通过同时评估多种动作,改善了多智能体连续领域中基于价值的方法,促进了智能体之间的合作,并在六个合作多智能体场景中实证发现 MQF 通过快速动作评估和增加样本效率优于四个变种的 - 多智能体概率合奏与轨迹采样用于连通自动驾驶车辆
我们提出了一种名为 MA-PETS 的分散多智能体概率集成与轨迹采样算法,用于解决限制通信的多个自动驾驶车辆的决策问题,并在理论和实验中验证了其在样本效率方面的优越性。
- AAAI竞争网络中多智能体学习的稳定性:延迟混沌的发生
多智能体学习在竞争网络游戏中的行为通常在零和游戏的背景下进行研究,其中收敛保证可能会得到。然而,在这个类别之外,学习的行为被知道展现出复杂的行为且收敛不能始终保证。尽管如此,为了完整地了解多智能体学习在竞争环境中的行为,必须放弃零和的假设。 - 有限正规式博弈中纳什均衡算法调查
本文综合从理论和实证的角度,回顾了计算有限正规形式博弈中纳什均衡及其近似解的各种算法,并在不同类型的博弈中对这些算法进行了综合比较,并给出了关于这些算法的实现和使用的实际建议,最后从理论和实践考虑提出了一系列开放问题。
- 多智能体学习中的合作回顾
多智能体学习是一门涉及博弈论、经济学、社会科学和进化生物学等众多学科交叉的主题。本文概述了多智能体学习的基本概念、问题设置和算法,包括增强学习、多智能体序列决策、多智能体合作的挑战,对最近进展进行了全面综述和相关度量评估,并讨论了该领域的开 - ICML多智能体学习的稳定性:多人网络博弈中的收敛性
多智能体学习在网络游戏中表现出复杂的动态特性,通过研究 Q 学习的动态特性,确定了在任何网络游戏中收敛到唯一均衡的充分条件,并且在适当的网络条件下,可以实现任意数量智能体的稳定学习动态。
- 公平最优多智能体赌博机
研究多智能体多臂赌博学习问题,以无通信和有限奖励为前提,提出了一种分布式拍卖算法并进行样本最优匹配学习和新的拍卖决策策略,通过新颖的基于次序统计量的后悔分析带来了全新的性能,实验模拟表明性能依赖于对数时间。
- 自适应学习速率仍无法解决大规模多智能体学习中的混沌问题
在大规模拥挤博弈中,即使使用自适应学习率,也无法消除混沌行为,我们的实验表明系统参数的微小变化会导致各种不可预测的结果。
- MADiff:离线扩散模型多智能体学习
本文提出 MADiff,一种基于关注力扩散模型的创新多智能体学习框架,用于模拟多智能体间的复杂协调,以发挥扩散的强大的生成能力。实验证明 MADiff 相比基线算法在各种多智能体学习任务中具有较高的性能。
- 基于模仿学习的算法,用于在现代电力市场中实现先验知识转移,用于贝叶斯纳什均衡估计
提出了一种 Bayesian Nash Equilibrium 策略来优化标的策略,利用 Bayes-adaptive Markov Decision Process in FEM(BAMDP-FEM)将先验知识考虑在内,同时使用 Mult - 基于分块体的边界感知层级迭代细化多智能体强化学习交互式三维图像分割
本文提出了一种使用马尔可夫决策过程和强化学习解决迭代交互式图像分割的方法,采用多智能体强化学习并引入界面奖励来增加边界部分的准确率,并且使用基于超像素点的交互设计来结合不同类型的交互方式,在四个基准数据集上的结果表明,该方法具有更少的交互数 - 利用模仿学习实现自动任务时间干预以提升团队合作
本文介绍了一种自动干预的方法来改善团队协调,首先使用 BTIL 多智能体模仿学习算法从过去的任务执行数据中学习团队行为的生成模型,然后结合团队的任务目标和生成模型来生成执行时间干预,实验结果表明,自动化干预可以成功提高团队绩效并揭示了改善团 - 通过陷阱区域实现多智能体学习的安全性保障
该研究提出了陷阱区域的概念来解决多智能体学习中的算法收敛性问题,在已知学习动态的系统中使用二分法算法验证,而在不知道学习动态的情况下则使用启发式抽样算法来划分安全集合,从而确保在学习过程中不会形成危险的联合策略组合。
- 利用压缩更新的时序差分学习:误差反馈与强化学习相遇
本文研究了带有压缩算子的强化学习过程对经典时间差分学习算法的影响,并证明了在误差反馈机制的作用下,以及与线性函数逼近和马尔可夫采样一起使用时,压缩的时间差分算法可以与 SGD 相似地具有非渐近理论保证。此外,本文还扩展了结果,提出了多智能体 - MM在多智能体环境中开发、评估和扩展学习智能体
DeepMind 的 “博弈论与多智能体团队” 研究了多智能体学习的多个方面,旨在使用深度强化学习探索复杂环境下的多智能体系统,并使用这些基准来推进我们的理解;本文总结了他们最近的工作并提出了一项分类,突显了多智能体研究中许多重要的开放性挑 - CH-MARL: 一个用于合作异构多智能体强化学习的多模态基准测试
该研究提出了一个多模态(视觉和语言)基准,用于合作和异构多智能体学习。研究介绍了一个基准多模态数据集和一致的评估协议,并探讨了不同模态对多智能体学习性能的影响,同时也介绍了智能体之间的简单信息传递方法。结果表明,在这种设置下,多模态引入了合 - 多智能体强化学习在基于竞拍的长期网络资源分配中的应用:V2X 应用
本文旨在研究如何实现计算任务从移动代理转移,其提出了一种基于分散决策的机制来促使代理间在博弈与合作之间平衡。为此,该文设计了一个新的多代理在线学习算法,并通过 V2X 应用的模拟得出了良好的收敛性和泛化性能。
- 多智能体强化学习的交互模式分离
本文提出了一种基于互动原型分离(OPT)的多智能体学习方法,将联合值函数分解为代理值函数以及实体交互成原型,以过滤掉無关實體之間的噪音交互,从而显着提高泛化能力和可解释性,并在单任务和多任务基准测试中获得了优于现有技术的结果。