一个复杂物流网络资源平衡的合作多智能体强化学习框架
本文提出了使用多智能体深度强化学习机制的分布式资源管理和干扰抑制方案。该框架通过使智能体作出决策,从而解决了干扰和资源分配的问题。模拟结果表明,这种方法具有比分散式基线更高的性能,在与集中式信息论基线相媲美的同时,模型的鲁棒性得到了验证。
Feb, 2020
该研究论文提出了一个基于多智能体的双层运营框架,用于考虑需求端的碳排放限额的配电网络低碳需求管理,其中上层通过优化控制信号最大化利润,下层通过优化调度决策最小化运营成本并计算配电边际价格和碳强度。通过网络通信与其他智能体合作,分布式柔性负荷智能体利用配电网络的不完全信息。最终,该问题被建模为一个基于网络的多智能体有约束马尔可夫决策过程,并使用一种名为共识多智能体有约束策略优化的安全强化学习算法进行求解,该算法考虑了每个智能体的碳排放限额。在 IEEE 33 节点和 123 节点配电网系统上的案例研究证明了所提方法的有效性,包括满足需求侧的碳排放约束、确保配电网的安全运行和保护双方的隐私。
Nov, 2023
本文旨在研究如何实现计算任务从移动代理转移,其提出了一种基于分散决策的机制来促使代理间在博弈与合作之间平衡。为此,该文设计了一个新的多代理在线学习算法,并通过 V2X 应用的模拟得出了良好的收敛性和泛化性能。
Jul, 2022
本文提出了一种基于强化学习的库存管理系统,主要解决现实供应链环境下的计算需求和奖励框架等问题,并通过 GPU 并行化环境和状态动态规划等创新来优化大型零售商供应链需要。该系统实现了区别于基础库存策略的控制策略,并给出了未来研究方向的讨论。
Apr, 2023
本文探讨了使用无人机作为空中基站提供无线通信服务的动态资源分配问题,并通过多智能体强化学习框架实现了长期收益的最大化。研究结果表明,该算法在信息交互开销和性能提升之间取得了良好的平衡。
Oct, 2018
本文提出了一种分布式的深度强化学习资源分配技术,针对协作无线电网络所呈现的多智能体环境及其强化学习过程中可能导致的非平稳环境,通过考虑深度强化学习的特定方面,本文的算法能够迭代地收敛于一个平衡政策,其可用于无需与其他代理协调配合的情况下工作。仿真结果表明,与等效的基于 Q 表的 Q 学习算法相比,所提出的技术具有更快的学习性能,并能够在足够长的学习时间内在 99% 的情况下找到最优策略。此外,对于与等效的基于表格的实现相比,仿真结果显示出我们的 DQL 方法只需要不到一半的学习步骤才能实现相同的性能。此外,证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。
May, 2022
提出了一种使用多智能体强化学习的分散化数据驱动库存管理问题的解决方案,其中每个实体由一个智能体控制,通过对不同供应链网络和不确定性水平的模拟来研究近端策略优化算法的三个多智能体变体。中心化训练分散化执行的框架被部署,该框架依赖于离线集中化,以便在基于模拟的策略识别期间进行,但在策略在线部署到实际系统时实现分散化。结果表明,使用带有集中式评论者的多智能体近端策略优化方法可以实现接近集中式数据驱动解决方案的性能,并在大多数情况下优于分布式基于模型的解决方案,同时遵守系统的信息约束。
Jul, 2023
本文旨在研究一种利用强化学习算法在无线多业务系统中处理无线电资源分配问题的方法,通过在本地环境中与局部互动来寻找策略,实现了关于 9LTE 系统满足保证和 QoS 约束的无线资源分配。此外,通过计算模拟,本文与文献中的最新解决方案进行比较,并展示了后者在吞吐量和故障率方面近乎最优的性能。
Mar, 2020
在车联网(V2X)网络中,我们通过联邦强化学习(FRL)框架探索资源分配,并使用非精确交替方向乘子法(ADMM)实现了算法 PASM,在 V2X 网络中解决资源分配问题,并与基线方法进行了比较。
Oct, 2023