Perseus: 从大型模型训练中消除能量浪费

Dec, 2023

Perseus: 从大型模型训练中消除能量浪费

Perseus: Removing Energy Bloat from Large Model Training

Jae-Won Chung, Yile Gu, Insu Jang, Luoxi Meng, Nikhil Bansal...

TL;DR通过使用 Perseus 框架，我们能够减少大型 AI 模型训练的能量消耗，提高训练效率，进而节省能源。

Abstract

Training large ai models on numerous GPUs consumes a massive amount of energy. We observe that not all energy consumed during training directly contributes to end-to-end training throughput, and a significant portion can be removed without slowing down training, which we call

energy bloat perseus large ai models energy consumption optimization

发现论文，激发创造

机器学习系统中的跨层能量优化

机器学习和生成型人工智能的巨大能源消耗对运营成本、电力传输和环境可持续性产生负面影响。然而，通过 Zeus 和 Perseus 的两项最新工作，我们发现软件在机器学习能耗优化方面起着关键作用。特别是对于大型语言模型，由于其模型大小和能源需求增长速度超过硬件效率改进的速度，因此我们主张采用跨层次方法来优化机器学习系统中的能源利用，其中硬件提供支持架构，推动能源高效软件的进一步发展，软件则利用和抽象硬件的特性，开发能够实现与硬件无关的能源效率提升技术。

Apr, 2024

Zeus: 深度学习训练的 GPU 能源消耗理解与优化

本文提出了一种名为 Zeus 的优化框架，它可以自动找到适合于经常出现的深度神经网络训练任务的最佳作业和 GPU 级别配置，从而在考虑到能源消耗和性能优化之间的权衡时，可以提高 DNN 训练的能源效率达到 15.3% 至 75.8%。

Aug, 2022

能源感知训练最小化深度学习模型的能耗

通过使用基于梯度下降的算法，利用可微分的近似表示 $l_0$ 范数作为稀疏惩罚减少训练模型过程中的能源消耗和预测延迟，实验结果表明该方法能够在分类表现和能源效率之间达到更好的平衡。

Jul, 2023

大国的责任：降低语言模型训练能耗的建议

本文探讨了用于减少 NLP 应用程序能源消耗的技术，其中包括衡量能源使用的技巧以及可以调节以减少训练和推理的能源消耗的不同硬件和数据中心设置，例如功率限制，可使基于变压器的语言模型训练的能源使用减少 15％。

May, 2022

通过平衡内存负载优化改善自动并行训练

本文介绍了一种系统框架 Galvatron-BMW，集成了多种普遍的并行性维度，并自动识别最高效的混合并行性策略，该系统在不同的 Transformer 模型下展示了 Galvatron-BMW 自动分布式训练的能力。

Jul, 2023

机器学习训练工作负载的动态 GPU 能量优化

本研究提出 GPOEO 在线 GPU 能源优化框架，使用性能计数器进行多目标建模，通过梯度提升和局部搜索算法平衡执行时间与能耗，结果表明平均节能 16.2%。

Jan, 2022

面向神经进化系统的物理合理性研究

通过最大化神经进化框架下人工神经网络模型的准确性和最小化功耗，本研究提出了一种新的变异策略，引入了模块层的随机重新引入，通过训练过程中同时训练两个模型以推动其中一个模型的功耗更低且准确性相似，结果表明功耗降低了 29.2%，但预测性能基本不受影响。

Jan, 2024

加速训练 Transformer 模型的多层框架

我们提出了一个多层框架，通过合并和解散以及插值操作来加速训练，从而降低了 BERT/GPT-Base 模型的计算成本约 20%，以及 BERT-Large 模型的计算成本高达 51.6%，同时保持了性能。

Apr, 2024

绿色人工智能：不同运行时基础设施下深度学习模型的能量消耗初步实证研究

本研究通过监测三个知名的深度学习框架和 ONNX 的运行时基础设施，使用三种不同的深度学习模型来测试能耗和推理时间，发现深度学习的性能和能效难以预测，并且不同的框架和执行提供者在不同场景下表现各异。转换为 ONNX 通常能显著提高性能，但批量为 64 的 ONNX 转换 ResNet 模型比原始的 PyTorch 模型多消耗约 10% 的能量和时间。

Feb, 2024

测量深度神经网络的能量消耗与效率：实证分析与设计建议

调查了大规模神经网络训练的实际能耗，并介绍了 BUTTER-E 数据集，分析了数据集大小、网络结构和能量消耗之间的复杂关系，提出了一个能量模型，挑战了参数或 FLOP 减少是实现更高能效的最佳方法的假设，并建议在网络、算法和硬件设计上采用综合方法来实现能量效率。

Mar, 2024