- ICLR高效的多智能体强化学习规划
多智能体强化学习算法(MARL)通过采取模型化方法来提高样本效率并在多个任务中表现出可比或更好的性能。
- 完全分布式雾计算负载均衡与多智能体强化学习
提出了一种使用多智能体强化学习的全分布式负载平衡解决方案,通过智能地分布物联网工作负载,在提供公平资源利用的同时优化等待时间,从而最小化等待时间并改善端到端执行延迟。
- IJCAI安全约束的多智能体强化学习在主动电压控制中的应用
基于多智能体强化学习的安全限制算法,用于解决分布式可控发电机在电力网络中主动电压控制问题,通过在电力分布网络模拟环境中进行实验,证明了该方法与最新的多智能体强化学习方法相比的有效性。
- 基于多智能体强化学习的分布式自主交叉口管理方法
提出了一个使用多智能体强化学习(MARL)的分布式方法来解决自主交叉口管理(AIM)中的问题,利用 3D 环视技术实现了无需中央控制器的精确导航,同时引入了优先情景回放策略以提高训练效果。实验证明该方法作为传统中央化 AIM 技术的创新替代 - 面向自适应 IMFs -- 在多智能体框架中实用函数泛化
该论文提出了一种新的机制,使得 IMF 能够在运行时推广到不同形式的效用函数和意向优先级的变化,无需额外的训练,从而在客户意图和优先级频繁变化的实时网络中部署 IMF 并展示其高效性、可伸缩性和灵活性。
- 分散协作多智能体强化学习的部分调查
多智能体强化学习在最近几年变得非常流行。有许多方法可以将其分为三种主要类型:中心化训练和执行(CTE)、中心化训练分布式执行(CTDE)和分散化训练和执行(DTE)。该论文探讨了这些方法及其应用于合作型多智能体强化学习的相关问题。
- 具有熵正则化的独立自然策略梯度在游戏中的线性收敛
这项研究主要关注多智能体强化学习中的熵正则化独立自然策略梯度算法,通过引入熵正则化实现有界理性的决策,从而使智能体的行为接近纳什均衡,并通过实证结果验证了理论分析的可靠性。
- 通过强化学习和基于代理的建模模拟理性对经济的影响
使用多智能体增强学习 (RL) 拓展有限理性模拟模型以考察其对经济的影响,研究发现多智能体根据市场竞争和理性程度 spontaneously 学习出不同策略,增加市场力量和整体利润,但更高程度的理性也可能导致更大不稳定性,并提出了可以稳定学 - AAAISocialGFs: 学习多智能体强化学习的社交梯度场
多智能体系统通过梯度状态表示和社交力在多智能体强化学习中具有广泛应用且可扩展性强。
- MESA:基于状态动作空间结构的多智能体学习中的合作元探索
MESA 是一种新颖的元探索方法,通过从训练任务中识别代理的高奖励联合状态 - 动作子空间,然后学习一组多样性的探索策略来解决多智能体协同学习中有效探索的问题。实验证明,通过学习到的探索策略,MESA 在稀疏奖励环境和挑战性任务中均能显著提 - 多智能体强化学习的可证明高效信息导向采样算法
该研究设计和分析了一组基于信息导向采样(IDS)原则的新型多智能体强化学习(MARL)算法,这些算法受到信息论基础概念的启发,在两人零和马尔可夫博弈和多人一般和博弈等 MARL 环境中被证明具有高样本效率。
- Verco:多智能体强化学习中协调语言沟通的学习
我们提出了一种新的多智能体强化学习算法,将大型语言模型嵌入到智能体中,使其能够生成人类可理解的口头沟通,通过在智能体之间进行信息共享来显著提高学习效率和性能,并为人类提供解释多智能体合作过程的工具。
- 能源网络的多智能体强化学习:计算挑战、进展与开放问题
电网架构和功能的快速变化以及可再生能源和分布式能源资源的不断增长导致了各种技术和管理挑战。本调研报告探讨了多智能体强化学习(MARL)如何支持能源网络的去中心化和脱碳,并缓解相关的挑战。通过指定管理能源网络中的关键计算挑战,回顾最新的研究进 - 通过局部集中执行减少多智能体协调中的冗余计算
通过引入局部集中式团队变换器 (LCTT) 方法,本研究解决了多智能体强化学习中的冗余计算问题,并提出了团队变换器架构 (T-Trans) 和领导权转换机制,实现了更加高效的学习收敛,同时无损于奖励水平。
- 集中式与分散式多智能体强化学习在增强电动车充电网络控制中的比较
电动汽车的广泛采用对电力分配网络和智能电网基础设施提出了几个挑战,特别是在高峰时段可能会显著增加电力需求。本文介绍了一种利用多智能体强化学习(MARL)框架的分布式和协作充电策略的新方法,该方法采用深度确定性策略梯度(DDPG)算法,适用于 - IJCAI用于能源从扩散波的强化学习控制器的函数逼近
工业多发电机波浪能转换器(WEC)需要处理来自不同方向的多个同时波浪,这些复杂设备在挑战性环境下需要同时追求能量捕获效率、结构应力减少以限制维护和主动保护免受高波浪影响的多目标控制器;本文采用 Proximal Policy Optimiz - 高回放率赋予样本高效的多智能体强化学习
增加重播比例(或更新至数据比例)可以显著提高多智能体强化学习算法的样本效率。
- 具有自我对弈的差分隐私强化学习
我们研究了具有差分隐私约束的多智能体强化学习问题,设计了一种基于乐观纳什值迭代和 Bernstein 型奖励的算法,能满足 JDP 和 LDP 的要求,并提供了关于后悔界的推广结果,是对多智能体强化学习中轨迹隐私保护的首批研究。
- 基于注意力驱动的多智能体强化学习:增强专家指导的决策
利用领域知识和基于注意力机制的政策机制,该论文介绍了一种增强多智能体强化学习(MARL)的替代方法。该方法通过将领域专业知识纳入学习过程,简化了协同行为的开发,从而减少了与 MARL 通常相关的复杂性和学习开销,使代理能够集中于复杂任务的关 - 零样本可扩展协作的异构多智能体强化学习
我们提出了一个名为 SHPPO 的新型 MARL 框架,通过将异质性整合到共享参数的 PPO 基础的 MARL 网络中,实现了可扩展性和异构性,并在经典 MARL 环境中展示了优越的零 - shot 可扩展性和对学习潜在表示的可视化带来的团