训练大型语言模型的梯度计算的细粒度复杂度

Feb, 2024

训练大型语言模型的梯度计算的细粒度复杂度

The Fine-Grained Complexity of Gradient Computation for Training Large Language Models

Josh Alman, Zhao Song

TL;DR大型语言模型的训练可以通过前向计算和后向计算来实现，前向计算可以被视为注意力函数的评估，后向计算可以被视为梯度计算。本文证明了在某些参数范围内前向计算可以在几乎线性的时间内完成，但在其他参数范围内，除非流行的假设 SETH 是错误的，否则没有真正的次二次时间算法；我们同样在计算单层注意力网络损失函数梯度的更难问题上展示了几乎相同的结果，从而完全揭示了 LLM 训练每个步骤的细粒度复杂性。

Abstract

large language models (LLMs) have made fundamental contributions over the last a few years. To train an LLM, one needs to alternatingly run `forward' computations and `backward' computations. The forward computation can be viewed as attention function evaluation, and the backward compu

large language models llm training forward computations backward computations gradient computation

发现论文，激发创造

CG-FedLLM：用于大规模语言模型的联邦微调中梯度压缩方法

本研究提出了一种创新方法来压缩梯度以提高大型语言模型联邦学习中的通信效率，通过在客户端增加编码器以获取压缩的梯度特征，以及在服务器端增加解码器来重构梯度。通过使用特征筛选和保护关键特征的方式，我们的方法降低了通信成本并提高了性能，在隐私保护框架内进行了一系列实验分析，为开发更高效和安全的大型语言模型提供了洞见。

May, 2024

FinGPT-HPC: 高性能计算在金融应用中高效地预训练和微调大型语言模型

通过利用低秩结构以及量化参数，本论文提出了一种高性能的基于 GPU 的方法用于预训练和微调大型语言模型，以实现金融应用，并取得了较快的速度和高模型压缩比，同时保持了很高的准确率。

Feb, 2024

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023

在高效基础上构建：利用结构化前馈层有效训练 LLMs

通过结构化的前馈网络，使用线性层近似来减少大型语言模型的参数数量和计算成本，同时提出一种自我引导训练的方法来改善这种近似所表现出的训练动力学，从而在训练和推断中实现高效和有效的结果。

Jun, 2024

利用大型语言模型研究自动评分和反馈

使用参数高效微调（PEFT）方法中的量化模型，通过细调大型语言模型（LLMs）自动为短答案和论文分配连续数值评分以及生成相关反馈，达到高准确性且成本和延迟相对较低。

May, 2024

自选注意力范围加速大型语言模型推理

训练大型语言模型自我选择注意力跨度可以加快解决现实世界任务的自回归推理速度。

Apr, 2024

大规模语言模型的稀疏微调扩展

大型语言模型 (Large Language Models) 在指令或人类反馈方面很难进行全面的微调，但参数高效稀疏微调 (sparse fine-tuning) 的方法已经在性能上取得了一定的成果，本文将稀疏微调方法扩展到像 LLaMA 2 7B 和 13B 这样的最先进的 LLMs，实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如 LoRA 表现更好，并且在运行时间上可比较。

Jan, 2024

通过自适应反向传播实现大规模语言模型微调中的绿色人工智能

通过评估不同张量的反向传播成本和对精调模型准确性的贡献，选择最适合的张量集以最小化训练成本，并实现 FLOPs 的减少，GreenTrainer 技术相较于整个 LLM 模型的精调可节省高达 64% 的 FLOPs，同时不会显著降低模型准确性，相较于现有的技术如 LoRa，GreenTrainer 能在 FLOPs 减少的同时提高 4% 的模型准确性。

Sep, 2023

保存全部：通过循环黑色梯度下降实现联邦大语言模型的全参数调优

该研究引入了一种名为 FedCyBGD 的新方法，利用 Cycle Block Gradient Descent 来高效地在联邦学习中训练和微调大语言模型，从而减少资源消耗，并取得了最先进的 FL LLM 训练表现。

Jun, 2024

边缘智能优化大型语言模型推断 —— 批处理和量化

通过部署批处理技术和资源有限的边缘设备上的模型量化，我们在此论文中提出了一种针对基于 Transformer 解码器的大语言模型推断的边缘智能优化问题，旨在通过批处理调度和通信、计算资源的联合分配来最大化推断吞吐量，同时考虑边缘资源约束和不同用户对延迟和准确性的需求。为了解决这个 NP-hard 问题，我们开发了一种在可行时间复杂度内运行的带有在线树剪枝的最优深度优先搜索算法（DFTSP）。模拟结果表明，DFTSP 在各种用户设置和量化技术中超越了其他批处理基准，并且与蛮力搜索方法相比，它的时间复杂度降低了 45% 以上。

May, 2024