自适应、基于交易的多智能体系统的分散调度
本研究提出了一种名为 SchedNet 的多智能体强化学习框架,其中智能体能够自主学习如何安排通讯、编码消息以及根据接收到的信息选择动作,并在合作通讯与导航以及捕猎等不同应用场景下展示了比其他机制更显著的表现差距,达到 32% 至 43% 的性能优势。
Feb, 2019
利用经过训练的深度强化学习智能体进行推理的优化参数化方法,该方法通过调整训练好的行为向量,使智能体在解决方案构建过程中更好地探索或开发,进而在有限的计算预算情况下生成更多可接受的解决方案。
Jun, 2024
本研究提出一种基于多智能体强化学习和演员 - 评论家方法的算法,通过与真实工作负载模式、能源价格和碳强度相互作用的云系统学习最优的协同调度策略,从而最大化 GPU 利用率、降低运营成本和减少碳排放。与其他算法相比,我们的方法提高了系统效用,最高可达 28.6%。
Apr, 2023
深层多智能体强化学习可实现住宅能量灵活性的可扩展和隐私保护的协调,结果表明,通过使用中心化但分化的评论家,可以在执行前排练协调。
May, 2023
提出了一种基于强化学习的实时调度器 ScheduleNet,它可以解决各种类型的多智能体调度问题,其中包括多销售员旅行问题(mTSP)和作业车间调度问题(JSP),并且采用类型感知图注意力(TGA)提取节点嵌入以计算任务分配概率。
Jun, 2021
本文提出了使用 Multi-Agent RL 来应对硬件体系结构搜索中领域特定定制的挑战,此方法相对于单一智能体,其可扩展性更高且运行更高效。该方法已在设计领域特定 DRAM 内存控制器上得到验证,并表现出在低功耗和延迟等不同目标方面显著优于单一代理强化学习算法,如 Proximal Policy Optimization 和 Soft Actor-Critic。
Nov, 2022
本文提出了一种 Digital Twin 辅助的 RL 任务调度方法,在探索效率上通过 DT 显著提高 RL 的收敛速度,使用 DT 模拟智能体做出的不同决策,从而实现探索多种行动并行交互的效果,提高了更快的数据分析能力和收敛效果。
Aug, 2022
通过受限的强化学习解决多智能体分配问题中的冲突要求,强调标准正则化技术的不足,提出了一种状态增强方法,通过代理利用对偶变量的振荡来在任务之间交替,同时通过通信网络协调多智能体的动作,消除了访问其他智能体状态的需要,从而提出了一种具有理论可行性保证的分布式多智能体分配协议,并通过监视的数值实验予以证实。
Jun, 2024
该研究提出了一种综合调度模型,利用多智能体深度强化学习算法学习不同社区的负载特征,并基于这些知识做出决策,以在不确定条件下协调各社区之间的能源交互和多能源子系统之间的能量转换,实现综合能源系统的整体优化和调度。模拟结果表明,该方法有效捕捉到不同社区的负载特征,并利用它们的互补特性,在它们之间协调合理的能源交互,从而将风电弃能率从 16.3% 降低到 0%,并降低了 5445.6 元的总运营成本,具有显著的经济和环境效益。
Aug, 2023