利用机器学习、代理应用和调度优先级在 Trinity 上优化性能

Mar, 2024

利用机器学习、代理应用和调度优先级在 Trinity 上优化性能

Optimizing Performance on Trinity Utilizing Machine Learning, Proxy Applications and Scheduling Priorities

Phil Romero

TL;DR使用快速运行的代理测试来评估超级计算机中的性能问题，运用机器学习识别性能差的节点，并讨论减少其影响和提高系统效率的策略。

Abstract

The sheer number of nodes continues to increase in todays supercomputers, the first half of Trinity alone contains more than 9400 compute nodes. Since the speed of todays clusters are limited by the slowest nodes

supercomputers compute nodes slow nodes performance assessment machine learning

发现论文，激发创造

朝向持续学习的应用性能模型

基于机器学习的性能模型在构建关键的作业调度和应用程序优化决策中越来越被使用。我们开发了持续学习性能模型，考虑到数据分布漂移，减轻灾难性遗忘，并提高泛化能力。我们的最佳模型能够保持准确性，无论系统变化引起的新数据分布，同时相比于朴素方法，在整个数据序列的预测准确度上提升了 2 倍。

Oct, 2023

通过机器学习加速计算机架构模拟

该论文提出了一种通过利用机器学习技术加速计算机体系结构模拟的方法，该方法利用应用特征和微架构特征的组合来预测应用程序的性能，通过构建和评估一个机器学习模型展示了在体系结构探索方面的显著加速能力。

Feb, 2024

分布式机器学习集群中的在线作业调度

本文针对分布式机器学习系统的调度问题，使用参数服务器框架设计了一种在线算法，以最大化所有作业的整体效用，并在跟踪驱动模拟和实验测试中证明了其优越性。

Jan, 2018

实时机器学习：遗失的部分

针对机器学习在实时决策中的应用，提出需要一种新的分布式执行框架来实现毫秒延迟、高吞吐、任务图的自适应构建以及异构内核的执行等一系列要求，并提出了一个候选方案，其架构已经获得了 63 倍的性能提升。

Mar, 2017

高效的任务复制以实现并行计算中的快速响应时间

本文研究大规模分布式计算中任务复制对响应时间和资源使用的影响，并提出了一些高效的算法来寻找最优的调度策略。

Apr, 2014

HPC 系统中的在线作业失败预测

通过使用机器学习算法和自然语言处理工具，在高性能计算系统的工作负载层面预测作业失败，以优化系统管理。

Jun, 2023

使用 40,000 颗核心进行交互式超级计算，用于机器学习和数据分析

本研究展示了如何通过调整启动方法和提前部署应用程序，克服任务调度和依赖关系等技术挑战，使用 LLSC 的大规模超级计算机在几秒内启动数千个任务，例如 32,000 个 TensorFlow 进程和 262,000 个 Octave 进程，进而快速研究新型机器学习架构和数据分析算法。

Jul, 2018

移动边缘计算中基于学习的应用部署问题的解决方案

本研究利用机器学习模型对边缘服务器中的请求分配进行优化，提供一种更高效的方法来解决移动边缘计算中的高维问题和不确定性场景，结果显示机器学习模型相对传统方法具有显著的解决时间改进。

Mar, 2024

具有 GFlowNets 的强健调度

本研究提出了一种新的调度方法，使用 GFlowNet 方法按比例抽样代理指标，通过在推理时间控制所提出的时间表的差异性和优良性之间的权衡以及将 GFlowNet 条件化为计算图，证明了相对于我们的方法，纯优化基线在目标模型上的性能不佳。

Jan, 2023

高性能计算系统上机器学习应用中的 I/O：全方位调查

通过对高性能计算系统中机器学习应用的 I/O 进行研究，本文在 2019 年至 2024 年的 6 年时间窗口内，概述了机器学习的常见阶段，评估了可用的分析工具和基准测试，探讨了机器学习训练过程中遇到的 I/O 模式，研究了现代机器学习框架中使用的 I/O 优化方法并提出了未来的研究方向和需要进一步探索的问题。

Apr, 2024