Zeus: 深度学习训练的 GPU 能源消耗理解与优化

Aug, 2022

Zeus: 深度学习训练的 GPU 能源消耗理解与优化

Zeus: Understanding and Optimizing GPU Energy Consumption of DNN Training

Jie You, Jae-Won Chung, Mosharaf Chowdhury

TL;DR本文提出了一种名为 Zeus 的优化框架，它可以自动找到适合于经常出现的深度神经网络训练任务的最佳作业和 GPU 级别配置，从而在考虑到能源消耗和性能优化之间的权衡时，可以提高 DNN 训练的能源效率达到 15.3% 至 75.8%。

Abstract

Training deep neural networks (dnns) is becoming increasingly more resource- and energy-intensive every year. Unfortunately, existing works primarily focus on optimizing DNN training for faster completion, often without considering the impact on →

dnns energy efficiency performance optimization zeus gpu-level configurations

发现论文，激发创造

机器学习系统中的跨层能量优化

机器学习和生成型人工智能的巨大能源消耗对运营成本、电力传输和环境可持续性产生负面影响。然而，通过 Zeus 和 Perseus 的两项最新工作，我们发现软件在机器学习能耗优化方面起着关键作用。特别是对于大型语言模型，由于其模型大小和能源需求增长速度超过硬件效率改进的速度，因此我们主张采用跨层次方法来优化机器学习系统中的能源利用，其中硬件提供支持架构，推动能源高效软件的进一步发展，软件则利用和抽象硬件的特性，开发能够实现与硬件无关的能源效率提升技术。

Apr, 2024

机器学习训练工作负载的动态 GPU 能量优化

本研究提出 GPOEO 在线 GPU 能源优化框架，使用性能计数器进行多目标建模，通过梯度提升和局部搜索算法平衡执行时间与能耗，结果表明平均节能 16.2%。

Jan, 2022

Perseus: 从大型模型训练中消除能量浪费

通过使用 Perseus 框架，我们能够减少大型 AI 模型训练的能量消耗，提高训练效率，进而节省能源。

Dec, 2023

GPU DVFS 对深度学习的能量和性能影响的实证研究

研究探讨了 GPU 动态电压频率调节对深度学习的影响，发现与默认核心频率相比，最优核心频率可以在不同的 DNN 训练情况下节省 8.7%~23.1% 能源消耗，推断时收益范围为 19.6%~26.4%。这一研究表明，GPU DVFS 有助于开发能源高效的 DNN 训练 / 推断方案。

May, 2019

Poseidon: 多机高效 GPU 深度学习系统架构

提出 Poseidon 系统架构用于现有 DL 框架的分布式 GPU 训练，包含三个核心贡献：支持 CPU 和 GPU，改进 GPU 利用和通信平衡的分布式等待无后向算法以及最小化通信开销的结构感知通信协议；在 8 个节点的 GPU 群集上，与最先进的 CPU 分布式系统竞争，获得 22K 数据集上更好的加速比和有竞争力的准确性。

Dec, 2015

NeuralPower: 预测和部署高效卷积神经网络

本研究提出基于稀疏多项式回归的逐层预测框架 NeuralPower，以准确预测在任何 GPU 平台上部署的卷积神经网络的能耗和运行时间。同时，我们还提出了 “能耗 - 精度比”（EPR）指标，以帮助机器学习者选择更能平衡能耗和预测准确度的 CNN 架构。实验结果表明，该框架可以提高预测精度高达 68.5％，且可以在不同 GPU 平台和深度学习软件工具上得到验证。

Oct, 2017

揭示深度学习的能效：边缘设备上的测量、预测和评分

本研究通过测量、预测和评分等三个方面的研究，揭示了边缘设备中深度学习的能量消耗特征，并设计了基于内核级能量数据集的边缘设备上的内核级能量预测器，最后引入了两个评分指标，旨在将复杂的边缘设备功耗和能量消耗数据转化为易于理解的形式，以推动边缘计算中的可持续发展思维。

Oct, 2023

使用能量感知剪枝设计高能效卷积神经网络

本研究提出了一种新的基于能量消耗估计的卷积神经网络 (CNNs) 剪枝算法，该算法比以前的算法更加激进，并具有更高的准确性，AlexNet 和 GoogLeNet 的能量消耗分别降低了 3.7x 和 1.6x，用于降低卷积神经网络在移动设备上的能量消耗的新工具和模型都可在链接网站上找到。

Nov, 2016

E2-Train: 基于 E2 方法训练最先进的 CNN 并节省 80% 以上的能量

通过三种方法 (stochastic mini-batch dropping, selective layer update, sign prediction) 来减少训练过程中的计算并实现在资源受限的设备上进行训练，该方法能够在保持准确率损失相对较小 (不超过 2%) 的前提下，实现能耗降低超过 90%。

Oct, 2019

面向神经进化系统的物理合理性研究

通过最大化神经进化框架下人工神经网络模型的准确性和最小化功耗，本研究提出了一种新的变异策略，引入了模块层的随机重新引入，通过训练过程中同时训练两个模型以推动其中一个模型的功耗更低且准确性相似，结果表明功耗降低了 29.2%，但预测性能基本不受影响。

Jan, 2024