基于机器学习的性能模型在构建关键的作业调度和应用程序优化决策中越来越被使用。我们开发了持续学习性能模型,考虑到数据分布漂移,减轻灾难性遗忘,并提高泛化能力。我们的最佳模型能够保持准确性,无论系统变化引起的新数据分布,同时相比于朴素方法,在整个数据序列的预测准确度上提升了 2 倍。
Oct, 2023
该论文提出了一种通过利用机器学习技术加速计算机体系结构模拟的方法,该方法利用应用特征和微架构特征的组合来预测应用程序的性能,通过构建和评估一个机器学习模型展示了在体系结构探索方面的显著加速能力。
Feb, 2024
本文针对分布式机器学习系统的调度问题,使用参数服务器框架设计了一种在线算法,以最大化所有作业的整体效用,并在跟踪驱动模拟和实验测试中证明了其优越性。
Jan, 2018
针对机器学习在实时决策中的应用,提出需要一种新的分布式执行框架来实现毫秒延迟、高吞吐、任务图的自适应构建以及异构内核的执行等一系列要求,并提出了一个候选方案,其架构已经获得了 63 倍的性能提升。
Mar, 2017
本文研究大规模分布式计算中任务复制对响应时间和资源使用的影响,并提出了一些高效的算法来寻找最优的调度策略。
Apr, 2014
通过使用机器学习算法和自然语言处理工具,在高性能计算系统的工作负载层面预测作业失败,以优化系统管理。
Jun, 2023
本研究展示了如何通过调整启动方法和提前部署应用程序,克服任务调度和依赖关系等技术挑战,使用 LLSC 的大规模超级计算机在几秒内启动数千个任务,例如 32,000 个 TensorFlow 进程和 262,000 个 Octave 进程,进而快速研究新型机器学习架构和数据分析算法。
Jul, 2018
本研究利用机器学习模型对边缘服务器中的请求分配进行优化,提供一种更高效的方法来解决移动边缘计算中的高维问题和不确定性场景,结果显示机器学习模型相对传统方法具有显著的解决时间改进。
Mar, 2024
本研究提出了一种新的调度方法,使用 GFlowNet 方法按比例抽样代理指标,通过在推理时间控制所提出的时间表的差异性和优良性之间的权衡以及将 GFlowNet 条件化为计算图,证明了相对于我们的方法,纯优化基线在目标模型上的性能不佳。
Jan, 2023
通过对高性能计算系统中机器学习应用的 I/O 进行研究,本文在 2019 年至 2024 年的 6 年时间窗口内,概述了机器学习的常见阶段,评估了可用的分析工具和基准测试,探讨了机器学习训练过程中遇到的 I/O 模式,研究了现代机器学习框架中使用的 I/O 优化方法并提出了未来的研究方向和需要进一步探索的问题。
Apr, 2024