为数据处理集群学习调度算法

Oct, 2018

Learning Scheduling Algorithms for Data Processing Clusters

Hongzi Mao, Malte Schwarzkopf, Shaileshh Bojja Venkatakrishnan, Zili Meng, Mohammad Alizadeh

TL;DR本文介绍 Decima，它可以通过机器学习技术自动生成高效的特定工作量调度策略，这种方法可以显著提高数据处理作业的整体处理效率。

Abstract

Efficiently scheduling data processing jobs on distributed compute clusters requires complex algorithms. Current systems, however, use simple generalized heuristics and ignore workload characteristics, since deve

data processing distributed compute clusters scheduling policy machine learning reinforcement learning

发现论文，激发创造

深度学习驱动的单机问题调度算法，最小化总延迟

利用深度学习方法解决单机调度问题，我们提出了一个深度神经网络，用于估计单次调度算法中所用的准则值，以指导算法找到问题的最佳分割，通过生成训练数据集的新方法，加速了数据集生成，并减少了解的平均最优性差距。实验结果表明，我们的机器学习驱动方法能够从训练阶段有效地概括信息到更大的实例中。

Feb, 2024

多资源多机器作业调度的深度强化学习

本文在最小化数据中心网络中的工作调度时间方面进行了深入研究，提出了一种基于深度强化学习的改进方法并将其扩展到多个服务器群集，结果表明，相比于传统的资源分配算法，深度强化学习方法在各种复杂环境中有着出色的性能表现。

Nov, 2017

分布式机器学习集群中的在线作业调度

本文针对分布式机器学习系统的调度问题，使用参数服务器框架设计了一种在线算法，以最大化所有作业的整体效用，并在跟踪驱动模拟和实验测试中证明了其优越性。

Jan, 2018

加强基于深度学习和强化学习技术的 Kubernetes 自动调度以优化大规模云计算

基于深度学习和强化学习的大规模云计算系统自动任务调度方案的研究和验证。

Feb, 2024

基于强化学习的数据密集型工作流调度用于志愿者边缘云

我们提出一种基于强化学习的数据密集型科学工作流调度方法，考虑到 Volunteer Edge-Cloud 资源的分布和异构性，以确保鲁棒的资源分配。通过将问题建模为马尔可夫决策过程，并使用基于事件的异步优势演员 - 评论家强化学习方法进行求解，我们在大量模拟和实验中证明了我们的方法在满足工作流需求、满足 Volunteer Edge-Cloud 资源偏好以及有效利用资源方面的优势。

Jul, 2024

深度强化学习在机器调度中的应用方法、现状和未来方向

深度强化学习 (DRL) 在机器调度问题中的方法和应用进行了全面的综述和比较，发现 DRL 方法在计算速度和生成接近全局最优解方面表现优于其他方法，但面临着处理复杂操作约束、多目标优化、泛化性、可扩展性、解释性和鲁棒性等限制，解决这些挑战将是未来研究中的关键焦点。该论文为研究人员评估当前 DRL 机器调度领域的现状以及发现研究空白提供了宝贵的资源，同时也帮助专家和从业者选择适合生产调度的 DRL 方法。

Oct, 2023

云计算中可延迟工作负载的在线调度的先进强化学习框架

云计算平台中的高效资源利用与完美用户体验通常相互冲突。本文提出了一种名为 “云中可延迟作业在线调度” 的在线可延迟工作调度方法，采用深度强化学习模型学习调度策略，并利用多个辅助任务提供更好的状态表示和改进模型性能，从而在在线环境中合理安排部署计划，实现用户等待时间短、平台资源利用率高的目标。所提出的方法在公共数据集上进行了验证并展示了卓越的性能。

Jun, 2024

基于深度强化学习的调度多层解释

本文提出了一个多层解释框架，用于解释基于深度强化学习的作业调度策略，该策略的决策过程被分解为作业级别和任务级别，并用可解释的模型和规则近似每个级别，以便系统管理员能更好理解和管理该调度策略

Sep, 2022

基于深度强化学习的深度神经网络多租户多加速器系统的在线调度策略

当前，云服务外包 DNNs 的趋势日益增长。本文介绍了一种针对多租户环境中 DNNs 在线调度的低开销深度强化学习算法 RELMAS，考虑了加速器的数据流异构性和内存带宽竞争问题，提高了服务提供商的硬件利用率并优化了服务水平协议满意率。在包含 Simba 和 Eyeriss 子加速器实例的多异构加速器系统上，与最先进的调度技术相比，在不同工作负载场景下，SLA 满意率提高了 173％，能源开销仅增加了不到 1.5％。

Apr, 2024

基于深度强化学习的作业车间调度：一种序列到序列方法

通过自动学习调度规则，本文提出了一种原创的端到端深度强化学习方法来解决作业调度的 NP - 难度问题，该技术受到自然语言编码器 - 解码器模型的启发，可在最小干预下用于处理其他不同的优化作业调度任务。研究结果表明，我们在利用优先调度规则方面超过了许多传统方法，并且在最先进的深度强化学习方法中取得了有竞争力的结果。

Aug, 2023