高召回率大约前 k 个预估用于高效 LLM 推理

Feb, 2024

高召回率大约前 k 个预估用于高效 LLM 推理

HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference

Yashas Samaga B L, Varun Yerram, Chong You, Srinadh Bhojanapalli, Sanjiv Kumar...

TL;DR使用大型语言模型生成的自回归解码在加速器（GPU/TPU）上通常受限于内存，而通过适当训练模型以在前馈层的高 $k$ 部分上操作，从而减少模型参数传输和减少延迟的潜力受到数据依赖性和矩阵运算的限制。为解决这些问题，我们引入了 HiRE（高召回率的近似 top-k 估计），它包括两个创新组件：一种压缩方案以低成本预测具有高召回率的前 $k$ 行 / 列，并进行预测子集的全算；DA-TOP-$k$：一种高效的多设备近似 top-$k$ 运算符。在 10 亿参数模型上，运用 HiRE 到 softmax 和前馈层，几乎达到了预训练和下游准确性匹配，并在单个 TPUv5e 设备上加速了推理延迟 1.47 倍。

Abstract

autoregressive decoding with generative large language models (LLMs) on accelerators (GPUs/TPUs) is often memory-bound where most of the t

autoregressive decoding large language models generative sparsity inference latency

发现论文，激发创造

分层注意力编码器解码器

本文提出了一种基于分层循环编码器解码器结构的模型，通过采样 softmax 估计开发了一种训练算法，可以在不需要高频解码器的情况下训练整个模型，显著降低了自回归模型训练的存储需求并改进了总的训练时间。

Jun, 2023

基于英特尔 GPU 的高效 LLM 推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量，在 Intel GPU 上相对于标准 HuggingFace 实现，能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。

Dec, 2023

HiP 注意力：带有分层注意力修剪的稀疏次二次注意力

我们提出了一种名为 HiP 的新方法，通过层次化剪枝注意力机制将训练和推断的时间复杂度从 O (T^2) 降低到 O (T log T)，空间复杂度从 O (T^2) 降低到 O (T)，并且能够扩展到数百万个令牌的预训练 LLM 应用中。

Jun, 2024

HiFi: 高信息注意力头用于参数有效的模型调整

本文提出了一种名为 HiFi 的参数高效的微调方法，即只微调与特定任务高度相关的信息丰富且高度相关的注意力头，该方法使用 PageRank 算法搜索显著的注意力头，实验证明 HiFi 方法在 GLUE 基准测试中获得了先进的性能。

May, 2023

ReaLHF：通过参数重分配优化大型语言模型的 RLHF 训练

基于参数重新分配的强化学习来自人类反馈（RLHF）是在大型语言模型（LLM）应用中的一个关键技术。为了克服直接采用监督训练的并行化技术可能导致次优性能的限制，我们提出了一种名为参数分配的新方法，在训练过程中动态重新分配 LLM 参数并适应并行化策略。基于这个想法，我们引入了一种名为 ReaLHF 的创新系统，能够根据所需的算法和硬件配置自动发现和运行 RLHF 训练的高效执行计划。ReaLHF 将 RLHF 的执行计划制定为一个增强数据流图，并采用轻量级成本估算器的定制搜索算法发现高效的执行计划。实验结果表明，与基准相比，ReaLHF 在 LLaMA-2 模型上实现了 2.0-10.6 倍的大幅加速。此外，ReaLHF 生成的执行计划与基于 Megatron-LM 的启发式方法相比，性能提高了平均 26％。ReaLHF 的源代码可以在此链接上公开获取。

Jun, 2024

TT-Rec: 深度学习推荐模型的张量列车压缩

本文研究了深度学习推荐模型中嵌入表的内存容量问题并提出了 Tensor Train 分解的解决方案。通过优化成熟度更低的 TT-Rec 及其核心部件 TT-EmbeddingBag，它在 Kaggle 和 Terabyte 数据集上均实现了 117 倍和 112 倍的模型大小压缩，并且没有任何准确性或训练时间开销。

Jan, 2021

大语言模型的高效推论综述

大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题，本文对提高大规模语言模型推理效率的现有技术文献进行了综述，介绍了数据层、模型层和系统层优化的方法，并通过实验进行了定量分析，最后总结了相关知识，并探讨了未来研究方向。

Apr, 2024

通过重叠激活重计算优化大型模型训练

设计了一个新的重计算框架 Lynx，通过将重计算与训练管道中发生的通信重叠来减少开销，其中包括优化调度算法（OPT）和基于启发式的调度算法（HEU），OPT 实现了全局最优但搜索时间较长，HEU 通过应用相同调度策略于所有相同结构达到局部最优并将搜索时间减少了 99%，使用 1.3B-20B 参数的 GPT 模型的全面评估结果显示，OPT 和 HEU 在性能上都优于现有的重计算方法（例如 Megatron-LM 和 Checkmake）1.02-1.53 倍，HEU 的平均搜索时间为 0.16 秒，与 OPT 具有类似的性能。

Jun, 2024

FlashDecoding++: 在 GPU 上更快的大型语言模型推理

FlashDecoding++ 是支持主流 LLM 和硬件后端的快速 LLM 推理引擎，通过引入异步 softmax、平坦 GEMM 优化和启发式数据流等技术，相较于 Hugging Face 实现，在 NVIDIA 和 AMD GPU 上实现了最高 4.86 倍和 2.18 倍的加速，在主流 LLMs 上平均实现了 1.37 倍的速度提升。

Nov, 2023

LLM 闪电般的运算：利用有限内存高效推理的大型语言模型

本研究旨在通过使用闪存将模型参数存储在 DRAM 之外，以满足超过 DRAM 容量的大型语言模型（LLMs）的高效运行需求。本文提出了两种主要技术，即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行，并在与传统加载方法相比，CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计，为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。

Dec, 2023