合作多智体强化学习的共识学习
探索使用强化学习解决多智能体问题,将多智能体强化学习问题视为分布式优化问题处理,假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替,结果表明该算法在协作和竞争任务上比现有方法更加有效。
May, 2018
该文章回顾了多智能体强化学习算法在大型控制系统和通信网络方面的最新进展,主要关注不同协调协议下的分散设置,并从分布式优化的视角突出了强化学习算法从单一智能体到多智能体系统的演变,强调多智能体强化学习与分布式优化、信号处理之间的合作,并总结了未来的发展方向与挑战。
Dec, 2019
为了实现人类般的协作,大量工作致力于探索实现集中式学习与分散式执行 (CLDE) 方法的多智能体强化学习 (MARL) 范式。在这里,我们讨论了集中式训练的变化,并描述了最近算法方法的调查。探讨不同的信息共享机制的中心化学习系统的实现如何在执行合作任务的多智能体系统中产生不同的团体协调行为。
Jul, 2021
本文针对多智能体强化学习算法在代理数目增多时出现的采样复杂度指数级增长的现象,提出了一些去中心化的学习算法,并在几个关键的方面上做了优化,同时通过数值仿真验证我们理论的有效性。
Oct, 2021
本文提出了一种分布式强化学习算法,该算法使用直接协调图和局部值函数,通过零阶优化方法进行条件估计,没有使用任何共识算法。与现有的基于零阶优化的强化学习算法相比,我们的算法保证了高可扩展性。
Jan, 2022
该论文研究了协作多智能体强化学习中的集中式训练和策略共享,提出了一种基于一致性的去中心化演员-评论家方法,以减少通信成本并保证收敛,从而有效地降低了训练时的通信成本。
Feb, 2022
该论文探讨了在多智能体强化学习中存在不可靠智能体的问题以及如何实现让智能体在存在不可靠智能体的情况下达成共识,通过提出基于强化学习的可信共识机制,使智能体能够根据与它们之间的交互经验自主决定与何人通信,并取得了更高的共识成功率。
May, 2022
本研究探索了如何在协作多智能体强化学习中融合价值分解和演员-评论家, 并提出了多智能体条件策略分解 (MACPF) 的方法,以更好地实现部分可观察环境下的学习。同时,通过在不同的合作MARL任务中进行实验证明MACPF相对于基线的表现更优。
Sep, 2022
多代理强化学习中的中央化训练与分散执行框架存在全局状态引导和地方观测依赖的差距。通过引入基于分层一致性的多智能体强化学习框架,采用对比学习来促进智能体之间的全局一致性,从而实现协同行为而无需直接通信。该框架允许智能体从地方观测中形成全局一致性,并在执行期间将其作为额外信息来指导协同行动,通过多层次的一致性满足各种任务的动态需求。采用自适应注意机制调整每个一致性层的影响,优化即时反应和战略规划之间的平衡,以适应特定任务的要求。通过大量实验和在多机器人系统中的实际应用,展示了我们框架相对于基准的卓越性能,取得了显著的进展。
Jul, 2024