合作多智体强化学习的共识学习
该论文探讨了在多智能体强化学习中存在不可靠智能体的问题以及如何实现让智能体在存在不可靠智能体的情况下达成共识,通过提出基于强化学习的可信共识机制,使智能体能够根据与它们之间的交互经验自主决定与何人通信,并取得了更高的共识成功率。
May, 2022
该研究论文介绍了一种新颖的分布式机器学习范式 —— 共识学习,它将经典的集成方法与点对点系统中部署的共识协议相结合。该算法包括两个阶段:参与者开发模型并对任何新的数据输入提交预测;个体预测作为输入参与通信阶段,该阶段由共识协议控制。共识学习保证用户数据隐私,同时继承底层共识机制对拜占庭攻击的安全措施。我们对特定共识协议进行了详细的理论分析,并将共识学习集成与集中式集成学习算法的性能进行了比较。此外,通过各种数字模拟,描述了算法对拜占庭参与者的鲁棒性。
Feb, 2024
为了实现人类般的协作,大量工作致力于探索实现集中式学习与分散式执行 (CLDE) 方法的多智能体强化学习 (MARL) 范式。在这里,我们讨论了集中式训练的变化,并描述了最近算法方法的调查。探讨不同的信息共享机制的中心化学习系统的实现如何在执行合作任务的多智能体系统中产生不同的团体协调行为。
Jul, 2021
该文章回顾了多智能体强化学习算法在大型控制系统和通信网络方面的最新进展,主要关注不同协调协议下的分散设置,并从分布式优化的视角突出了强化学习算法从单一智能体到多智能体系统的演变,强调多智能体强化学习与分布式优化、信号处理之间的合作,并总结了未来的发展方向与挑战。
Dec, 2019
该论文研究了一类多智能体马尔可夫决策过程,在其中,网络代理对全局可控状态和远程控制器的控制行为有不同的响应。在没有全局状态转移和本地代理成本统计信息之前,论文探讨了一种分布式强化学习设置,并提出了一种分布式版本的 Q-learning 方法来实现网络目标。通过稀疏(可能随机)通信网络上的局部处理和信息交流,实现了代理协作。在只知道其本地在线成本数据和代理之间的弱连接通信网络的假设下,提出的分布式方案在几乎确定的情况下被证明会渐进性地实现各个网络层面上的期望值函数和最优静止控制策略。所开发的分析技术可用于处理交互分布式方案导致的混合时间尺度随机动态的 “共识 + 创新” 形式,这些技术对独立的利益具有重要意义。
Apr, 2012
多智能体协调中,达成共识是关键。本文提出一种基于模型的共识机制,通过想象出一个共同目标来引导多智能体达成共识,进而引导他们合作地达到有价值的未来状态。
Mar, 2024
本文提出了一个基于深度确定性策略梯度的多智能体训练框架,利用存储设备并发端到端学习明确的通信协议,来提高小规模系统中智能体的协作和性能,同时研究了不同通信模式对性能的影响。
Jan, 2019
我们提出了一种计算多智能体系统中闭环最优策略的方法,并证明了在拥有无限个智能体的系统中成功收敛到最优行为,而且我们的方法具有完全分散的特性,能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。
Mar, 2018