- 基于去中心化传播的通信网络随机双层优化
本文研究了在网络上进行分布式双层优化问题,提出了一种基于谣言传播的分布式双层学习算法,证明了该算法对于一般非凸双层优化和强凸优化具有最优的样本复杂度,并在多项任务进行的两个例子中进行了测试。
- DM$^2$: 分布匹配的去中心化多智能体强化学习
本研究讨论无集中式组分和显式通讯的分布式多智能体学习,研究表明分布式匹配技术可用于协调独立智能体之间的协作,开发了一种实用的基于样本轨迹的算法(DM^2),已在 StarCraft 领域验证。
- BRExIt: 关于专家迭代中对手建模的研究
提出了一种名为 BRExIt 的学习算法,利用对手模型来提高学习的效率和性能,在 Connect4 游戏中的实验验证,BRExIt 算法具有更高的采样效率,能够学习出表现优异的策略。
- 关于虚拟博弈收敛性问题的分解方法研究
本文扩展了虚拟博弈在混合博弈中的收敛结果,发现合作和竞争具有互相可转换的线性关系,并研究了 FP 在 Shapley game 中的非收敛现象及其充分条件。
- 安全感知的多智能体学徒学习
本研究基于《Safety-Aware Apprenticeship Learning》的技术,提出了一种从单智能体学习框架到多智能体学习框架的延伸,并将这种延伸应用于逆强化学习模型,通过多智能体情景中的安全奖励函数提取,从而实现该模型的有效 - 3DPG: 网络化多智能体系统的分布式深度确定性策略梯度算法
本论文提出了一种基于分布式深度学习的多智能体 Actor-Critic 学习算法,应用于 Markov 博弈,能够在训练和部署中实现完全分布式,具有一定的实用价值。
- 规范分歧作为协作人工智能的挑战
研究多智能体协作中存在的利益冲突问题及其解决方案,提出采用规范自适应策略以增加协作。
- 随机博弈中的独立学习
本综述介绍了一个新的独立学习动力学网络,其保证了在零和随机博弈中的收敛性,同时也回顾了其他算法,以期推动研究有关动态环境下博弈的独立和自然学习动力学。
- 稳定的多智能体交互影响力研究
该研究探讨如何通过学习其他机器人的策略,以及动态模型的帮助,定义一个无监督的稳定奖励来影响其他机器人的策略以实现稳定,并展示了其在自动驾驶、紧急通信和机器人操作等方面的有效性。
- 开放式学习导致通用能力的代理
本文介绍了一种基于多智能体、开放式学习的方法,其能够使得智能体在一种包含大量挑战、跨越多个任务、更广泛的行为通用化领域中表现出非凡的学习能力。通过在环境中建立一个任务的宇宙,我们的训练代理能够跨越更广泛的任务领域,这个领域自然多智能体,涉及 - ICML交易市场的稳健风险敏感的强化学习智能体
提出了一系列用于对付高波动性、高代价探索、多智能体交互等具有挑战性的贸易市场的强化学习算法,并将其应用于多智能体环境。这些算法不仅考虑风险意识、扰动下的鲁棒性和低学习方差,还进行了实证博弈理论的扩展。
- 多智能体信任域优化的博弈论方法
通过在策略空间中进行博弈论分析,MATRL 提出了一种用于多智能体学习的多智能体信赖域学习方法,该方法可在解决纳什均衡的元游戏级别上找到稳定的改进方向,并在离散和连续的多人游戏中明显优于基线。
- IJCAI学习估计竞争来提高多智能体协作
本文提出了一种多智能体学习算法 ALMA-Learning,用于大规模系统的高效和公平分配,该算法通过依赖于 ALMA 启发式协调机制来克服传统多智能体学习的问题,适用于各种情景和实际问题,且具有轻量级和快速学习的特点,适合于设备上的部署。
- AAAI多智能体学习中的勘探与开发:灾变理论与博弈论相遇
研究了多智能体学习中的探索 - 利用问题,并在 Q-learning 模型中证明了其在博弈中拥有良好的理论基础,同时研究了探索对多智能体系统性能的影响,并提供了调整探索参数以实现平衡选择的正反面效果的正式理论处理。
- RODE:学习角色以分解多智能体任务
通过聚类行动效果、学习角色选择器和角色策略,使角色发现更加容易并提高学习效率和策略泛化能力,该方法在 StarCraft II 多智能体微观管理基准测试的 14 个场景中表现优秀,实现了快速迁移至三倍数量的代理。
- ICMLPow-Wow:Pommerman 协作通信的数据集和研究
本研究通过设计 Pow-Wow 数据集,分析人类在团队竞技游戏中的语言使用,提炼有效的通信策略,并将其应用于多智能体学习中,结果表明使用通信的智能体胜率较不使用通信的基准系统高。
- AAAI连续博弈的 Helmholtz 分解上的牛顿优化
本文提出了基于 NOHD (Newton Optimization on Helmholtz Decomposition)算法的多智能体学习方法,其基于对系统动力学进行无旋(势能)和无源(哈密顿量)分解,保证了纯无旋和无源系统的二次收敛,且 - ICML多智能体特征行列式 Q 学习
本文提出一种基于 Q-DPP 的多智能体 Q 学习方法,用于解决分布式合作任务中的中心化训练和分散执行,消除了限制性假设,并通过采样投影采样器在各种合作基准测试中证明了算法的有效性。
- 多智能体系统中的公平学习
该研究提出了一种新型的分层强化学习模型 FEN,使用分层的控制器和子策略来平衡多智能体学习中的公平性和效率;FEN 可以被完全分散地训练和在多智能体场景中显著优于基线模型。
- 策略梯度算法在线性二次博弈中没有收敛保证
本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究,经由分析线性二次博弈的梯度播放,得到该算法并不存在全局收敛到 Nash 平衡点的保证,且通过实验发现此类情况并不少见。