在单个GPU上可扩展的学习模型池：一种高效的子空间训练策略

Jul, 2024

在单个GPU上可扩展的学习模型池：一种高效的子空间训练策略

Scalable Learned Model Soup on a Single GPU: An Efficient Subspace Training Strategy

Tao Li, Weisen Jiang, Fanghui Liu, Xiaolin Huang, James T. Kwok

TL;DR本研究提出了一种名为MEHL-Soup的内存高效超平面学习汤（Memory Efficient Hyperplane Learned Soup），通过将学习汤弄成一个超平面优化问题，并引入块坐标梯度下降来学习混合系数，从而解决了学习汤由于加载所有微调模型和建立一个大的计算图而面临的内存和时间开销的问题。进一步扩展为MEHL-Soup+，以分层的方式进行。实验证明，MEHL-Soup(+)在测试准确性方面优于Learned-Soup(+)，还可以减少超过13倍的内存使用量。此外，MEHL-Soup(+)可以在单个GPU上运行，并且与Learned-Soup相比，在学习汤构建方面速度提高了9倍。

Abstract

pre-training followed by fine-tuning is widely adopted among practitioners. The performance can be improved by "model soups"~\cite{wortsma

发现论文，激发创造

学习优化张量程序

该论文介绍了一个基于深度学习工作负载的张量程序优化学习框架，其通过学习领域特定的统计成本模型来引导张量操作实现的搜索，进而加速搜索，实现性能与手动调整的图书馆竞争力相当。

May, 2018

跨弓：使用小批次尺寸在多GPU服务器上扩展深度学习

CROSSBOW是一种新的单服务器多GPU系统，可让用户自由选择其首选批量大小，同时扩展到多个GPU以实现高硬件效率，而无需牺牲统计效率。

Jan, 2019

模型集成：对多个微调模型的权重进行平均可提高准确度且不增加推理时间

通过平均训练以不同超参数配置微调的模型，提高现有模型的性能和鲁棒性，从而在多个图像分类和自然语言处理任务中达到新的最先进技术水平。

Mar, 2022

面向极大输出空间的记忆高效训练——在单一通用 GPU 上使用 50 万标签进行学习

在大规模输出空间分类问题中，通过使用中间大小的倒数第二层和限制稀疏层的连通性为均匀，可有效降低GPU硬件上的内存需求，并缓解由稀疏层连通性引起的模型预测力度下降问题。

Jun, 2023

探索密集预测的参数，记忆和时间高效适配器调整：参数高效并不足够

本文提出了一种名为E3VA的参数、内存和时间高效的视觉适配器调节方法，通过梯度反向传播高速公路实现低秩适配器，可以在保持模型性能相当的情况下，节省高达62.2%的训练存储器和26.2%的训练时间。

Jun, 2023

稀疏模型汤：通过模型平均实现剪枝改进的配方

本文介绍了一种稀疏神经网络模型的组合方法，称为稀疏模型汤。该方法使用迭代剪枝技术，通过在众多超参数配置中重新训练模型以获得相同的稀疏性，从而使得多个稀疏模型之间的参数能够平均并且相容，从而增强了这些模型的泛化能力。

Jun, 2023

提升推理速度：蝶式稀疏矩阵乘法的高效GPU内存管理

通过一项全面的基准测试，本研究评估了目前GPU上用于蝶形稀疏矩阵乘法算法的现状，旨在为用户提供一个简单的工具来选择最佳算法实现。结果显示现有实现在内存重写操作上耗费了总运行时间的高达50％。同时，引入一种新的CUDA核心可以优化这些内存操作，最多可以使计算速度提高1.4倍，降低能耗0.85倍。我们还展示了新核心的广泛意义，以其加速神经网络的推断。

May, 2024

基于学习的子空间投影器的通用GPU上超参微调LLM的实用卸载

通过学习稀疏压缩器和新颖的分层通信调度，我们提出了一个离线框架 LSP_Offload，能够在普通硬件上以接近原生速度进行大型语言模型的微调，从而在受限的内存条件下显著提高微调吞吐量并缩短微调时间。

Jun, 2024

Grass: 结构稀疏梯度的计算高效低内存LLM训练

本研究通过利用稀疏投影将梯度转化为结构稀疏更新，以显著降低优化器状态的内存使用，减少梯度内存占用、计算和通信成本，并实现了与全秩训练和现有投影优化方法相媲美的性能。

Jun, 2024

Parm: 大规模稀疏激活模型的高效训练与专用计划

Parm是一个加速MP+EP+ESP训练的系统，通过设计两个专用调度来消除冗余计算和通信任务，实现节点内和节点间通信的重叠，从而减少总体训练时间。在8-GPU服务器和32-GPU集群上的实验结果表明，Parm优于最先进的MoE训练系统DeepSpeed-MoE，在1296个手动配置的MoE层上获得1.13倍至5.77倍的加速，并在基于BERT和GPT-2的两个真实MoE模型上实现了大约3倍的改进。

Jun, 2024