自适应、基于交易的多智能体系统的分散调度

Jul, 2022

自适应、基于交易的多智能体系统的分散调度

Decentralized scheduling through an adaptive, trading-based multi-agent system

Michael Kölle, Lennart Rietdorf, Kyrill Schmid

TL;DR该研究采用交易方法，将多智能体强化学习应用于模拟的调度环境中，研究分布式代理体系结构及自主定价在任务分配中的应用。

Abstract

In multi-agent reinforcement learning systems, the actions of one agent can have a negative impact on the rewards of other agents. One way to combat this problem is to let agents trade their rewards amongst each other. Motivated by this, this work applies a →

multi-agent reinforcement learning trading approach scheduling environment distributed agent architecture autonomous pricing

发现论文，激发创造

多智能体强化学习中通信调度的学习

本研究提出了一种名为 SchedNet 的多智能体强化学习框架，其中智能体能够自主学习如何安排通讯、编码消息以及根据接收到的信息选择动作，并在合作通讯与导航以及捕猎等不同应用场景下展示了比其他机制更显著的表现差距，达到 32% 至 43% 的性能优势。

Feb, 2019

超越训练：通过自适应动作采样优化基于强化学习的工作车间调度

利用经过训练的深度强化学习智能体进行推理的优化参数化方法，该方法通过调整训练好的行为向量，使智能体在解决方案构建过程中更好地探索或开发，进而在有限的计算预算情况下生成更多可接受的解决方案。

Jun, 2024

多智能体学习调度：一种分布式无线资源管理框架

提出了一种使用多智能体深度强化学习的机制来管理无线电资源，从而在最大化用户吞吐量和保证公平分配资源之间取得平衡。

Jun, 2019

基于多智能体强化学习的地理分布数据中心可持续负载调度

本研究提出一种基于多智能体强化学习和演员 - 评论家方法的算法，通过与真实工作负载模式、能源价格和碳强度相互作用的云系统学习最优的协同调度策略，从而最大化 GPU 利用率、降低运营成本和减少碳排放。与其他算法相比，我们的方法提高了系统效用，最高可达 28.6％。

Apr, 2023

集中编排区块链协作：基于多智能体强化學習的住宅能量灵活协调

深层多智能体强化学习可实现住宅能量灵活性的可扩展和隐私保护的协调，结果表明，通过使用中心化但分化的评论家，可以在执行前排练协调。

May, 2023

ScheduleNet: 用强化学习解决多智能体排班问题

提出了一种基于强化学习的实时调度器 ScheduleNet，它可以解决各种类型的多智能体调度问题，其中包括多销售员旅行问题（mTSP）和作业车间调度问题（JSP），并且采用类型感知图注意力（TGA）提取节点嵌入以计算任务分配概率。

Jun, 2021

多智能体强化学习用于微处理器设计空间探索

本文提出了使用 Multi-Agent RL 来应对硬件体系结构搜索中领域特定定制的挑战，此方法相对于单一智能体，其可扩展性更高且运行更高效。该方法已在设计领域特定 DRAM 内存控制器上得到验证，并表现出在低功耗和延迟等不同目标方面显著优于单一代理强化学习算法，如 Proximal Policy Optimization 和 Soft Actor-Critic。

Nov, 2022

数字孪生辅助高效边缘任务调度的强化学习

本文提出了一种 Digital Twin 辅助的 RL 任务调度方法，在探索效率上通过 DT 显著提高 RL 的收敛速度，使用 DT 模拟智能体做出的不同决策，从而实现探索多种行动并行交互的效果，提高了更快的数据分析能力和收敛效果。

Aug, 2022

多智能体分配任务的状态增强式强化学习

通过受限的强化学习解决多智能体分配问题中的冲突要求，强调标准正则化技术的不足，提出了一种状态增强方法，通过代理利用对偶变量的振荡来在任务之间交替，同时通过通信网络协调多智能体的动作，消除了访问其他智能体状态的需要，从而提出了一种具有理论可行性保证的分布式多智能体分配协议，并通过监视的数值实验予以证实。

Jun, 2024

深度强化学习驱动的跨社区能源互动最佳调度

该研究提出了一种综合调度模型，利用多智能体深度强化学习算法学习不同社区的负载特征，并基于这些知识做出决策，以在不确定条件下协调各社区之间的能源交互和多能源子系统之间的能量转换，实现综合能源系统的整体优化和调度。模拟结果表明，该方法有效捕捉到不同社区的负载特征，并利用它们的互补特性，在它们之间协调合理的能源交互，从而将风电弃能率从 16.3% 降低到 0%，并降低了 5445.6 元的总运营成本，具有显著的经济和环境效益。

Aug, 2023