多智能体共识强化学习
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
探索使用强化学习解决多智能体问题,将多智能体强化学习问题视为分布式优化问题处理,假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替,结果表明该算法在协作和竞争任务上比现有方法更加有效。
May, 2018
本研究介绍了多智能体强化学习中多样性的重要性,并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法,以促进代理之间的协作和多样性,实验结果表明该方法在Google Research Football和超难的星际争霸II微观管理任务上取得了最先进的表现。
Jun, 2021
为了实现人类般的协作,大量工作致力于探索实现集中式学习与分散式执行 (CLDE) 方法的多智能体强化学习 (MARL) 范式。在这里,我们讨论了集中式训练的变化,并描述了最近算法方法的调查。探讨不同的信息共享机制的中心化学习系统的实现如何在执行合作任务的多智能体系统中产生不同的团体协调行为。
Jul, 2021
本文针对多智能体强化学习算法在代理数目增多时出现的采样复杂度指数级增长的现象,提出了一些去中心化的学习算法,并在几个关键的方面上做了优化,同时通过数值仿真验证我们理论的有效性。
Oct, 2021
本研究探索了如何在协作多智能体强化学习中融合价值分解和演员-评论家, 并提出了多智能体条件策略分解 (MACPF) 的方法,以更好地实现部分可观察环境下的学习。同时,通过在不同的合作MARL任务中进行实验证明MACPF相对于基线的表现更优。
Sep, 2022
Coordinated QMIX (CoMIX) is a training framework for decentralized agents that enables emergent coordination through flexible policies, improving coordination in multi-agent systems.
Aug, 2023
多智能体系统中,代理人之间的通信对于加强协调至关重要。本研究提出了一种多智能体协调的方法,其中每个代理人具备将其观察、行动和接收到的信息整合到一个公共操作图中并传播的能力。实验结果表明,与最先进的多智能体强化学习方法相比,基于公共操作图的训练方法在面对分布不均的初始状态时能够产生出鲁棒的策略。
Nov, 2023
多代理强化学习中的中央化训练与分散执行框架存在全局状态引导和地方观测依赖的差距。通过引入基于分层一致性的多智能体强化学习框架,采用对比学习来促进智能体之间的全局一致性,从而实现协同行为而无需直接通信。该框架允许智能体从地方观测中形成全局一致性,并在执行期间将其作为额外信息来指导协同行动,通过多层次的一致性满足各种任务的动态需求。采用自适应注意机制调整每个一致性层的影响,优化即时反应和战略规划之间的平衡,以适应特定任务的要求。通过大量实验和在多机器人系统中的实际应用,展示了我们框架相对于基准的卓越性能,取得了显著的进展。
Jul, 2024