机器学习训练工作负载的动态 GPU 能量优化

Jan, 2022

机器学习训练工作负载的动态 GPU 能量优化

Dynamic GPU Energy Optimization for Machine Learning Training Workloads

Farui Wang, Weizhe Zhang, Shichao Lai, Meng Hao, Zheng Wang

TL;DR本研究提出 GPOEO 在线 GPU 能源优化框架，使用性能计数器进行多目标建模，通过梯度提升和局部搜索算法平衡执行时间与能耗，结果表明平均节能 16.2%。

Abstract

GPUs are widely used to accelerate the training of machine learning workloads. As modern machine learning models become increasingly larger, they require a longer time to train, leading to higher →

gpu energy optimization machine learning performance counters multi-objective modeling

发现论文，激发创造

Zeus: 深度学习训练的 GPU 能源消耗理解与优化

本文提出了一种名为 Zeus 的优化框架，它可以自动找到适合于经常出现的深度神经网络训练任务的最佳作业和 GPU 级别配置，从而在考虑到能源消耗和性能优化之间的权衡时，可以提高 DNN 训练的能源效率达到 15.3% 至 75.8%。

Aug, 2022

GEVO-ML: 使用进化计算优化机器学习代码

GEVO-ML 是一个工具，用于自动发现 ML 内核的优化机会和性能调优，在多层中间表示（MLIR）中统一表示模型和训练 / 预测过程，使用多目标进化搜索来改进在 GPU 上运行的 MLIR 代码的性能，而保持所需功能。

Oct, 2023

能源感知训练最小化深度学习模型的能耗

通过使用基于梯度下降的算法，利用可微分的近似表示 $l_0$ 范数作为稀疏惩罚减少训练模型过程中的能源消耗和预测延迟，实验结果表明该方法能够在分类表现和能源效率之间达到更好的平衡。

Jul, 2023

最大推理准确性和能效的选择性任务卸载用于实时物联网感知系统

通过提出轻量级混合遗传算法来解决小型推理模型在边缘设备上动态分配推理任务以最大化推理准确度的问题，并与其他演化方法进行比较。

Feb, 2024

一种高效的任务卸载优化框架，用于基于智能反射面的多接入边缘计算系统

本文提出了一个基于深度学习的优化框架（IOPO），可以在毫秒之内生成高效节能的任务卸载决策，并且在处理解决方案空间广泛的复杂问题时，相较于其他基准方法性能更优。

Jul, 2023

机器学习系统中的跨层能量优化

机器学习和生成型人工智能的巨大能源消耗对运营成本、电力传输和环境可持续性产生负面影响。然而，通过 Zeus 和 Perseus 的两项最新工作，我们发现软件在机器学习能耗优化方面起着关键作用。特别是对于大型语言模型，由于其模型大小和能源需求增长速度超过硬件效率改进的速度，因此我们主张采用跨层次方法来优化机器学习系统中的能源利用，其中硬件提供支持架构，推动能源高效软件的进一步发展，软件则利用和抽象硬件的特性，开发能够实现与硬件无关的能源效率提升技术。

Apr, 2024

基于计算智能的能效 ACMV 系统预测与优化

利用新型神经网络模型预测占用者的热舒适状态，分别应用了 Bayesian Gaussian Process Optimization (BGPO) 和 Augmented Firefly Algorithm (AFA) 优化算法来平衡空调系统的能效和占用者的热舒适感，实验结果表明，在样本数量一定时，AFA 算法比 BGPO 算法更稳定，并且在能效用户偏好条件下，BGPO 和 AFA 的最佳节能率分别为 -21％和 -10％，可在新加坡实验室节约 S$1219.1。

Apr, 2022

可持续 AI 超级计算：HPC 规模下的 GPU 功率限制

研究 AI 硬件加速器的功耗限制对 GPU 温度和功耗的综合影响，发现适当的功耗限制可以显著降低温度和功耗，提高硬件使用寿命，对任务性能影响较小；然而，功耗限制对整体能源消耗的效果不明确，用户可能因 GPU 功耗限制而请求额外的 GPU 任务，抵消能源节约甚至使能源消耗更严重，因此希望鼓励 HPCs / 数据中心进一步研究、评估和传达功耗限制 AI 硬件加速器对更可持续的 AI 的影响。

Feb, 2024

机器学习辅助的卷积神经网络推断系统计算机架构设计

我们的工作通过识别最合适的 GPGPU 用于 CNN 推理系统，提出了一种加快 DSE 过程的方法。我们开发了一种快速而精确的技术来预测 CNN 推理过程中的功耗和性能，MAPE 分别为 5.03％和 5.94％。这种方法使计算机架构师能够在开发初期估计功耗和性能，减少了大量原型的必要性。这不仅节省了时间和金钱，同时也改善了上市时间。

Aug, 2023

元启发式机器学习方法用于移动应用开发能源预测

本文提出了基于直方图梯度强化分类机和元启发式方法的手机应用程序能耗预测方法，该方法在搜索最佳搜索算法时使用成功历史参数适应技术，可以显著降低能耗，并提供精确的能耗预测。

Jun, 2023