Endor：用于离线 LLM 推断的硬件友好的稀疏格式

Jun, 2024

Endor：用于离线 LLM 推断的硬件友好的稀疏格式

Endor: Hardware-Friendly Sparse Format for Offloaded LLM Inference

Donghyeon Joo, Ramyad Hadidi, Soheil Feizi, Bahar Asgari

TL;DR利用稀疏格式来压缩大型语言模型的权重并减少权重传输延迟，从而提高性能。

Abstract

The increasing size of large language models (LLMs) challenges their usage on resource-constrained platforms. For example, memory on modern GPUs is insufficient to hold LLMs that are hundreds of Gigabytes in size. offlo

large language models offloading weight transfer latency sparse format performance improvement

发现论文，激发创造

基于学习的子空间投影器的通用 GPU 上超参微调 LLM 的实用卸载

通过学习稀疏压缩器和新颖的分层通信调度，我们提出了一个离线框架 LSP_Offload，能够在普通硬件上以接近原生速度进行大型语言模型的微调，从而在受限的内存条件下显著提高微调吞吐量并缩短微调时间。

Jun, 2024

在 CPU 上高效 LLM 推断

本论文提出了一种有效的方法，可以更高效地部署大型语言模型，通过自动 INT4 纯权重量化流和设计具有高度优化内核的特殊 LLM 运行时，在 CPU 上加速 LLM 推理，展示了该方法对包括 Llama2、Llama、GPT-NeoX 等流行 LLM 的普适性，并显示了在 CPU 上的极高推理效率。

Nov, 2023

SqueezeLLM：紧密稀疏量化

通过引入 SqueezeLLM 后训练的量化框架，该框架不仅实现了高达 3 位的无损压缩，还在相同的内存约束下实现了更高的量化性能，可以将羊毛出在羊身上，仿佛神器一般。

Jun, 2023

大型语言模型推理的硬件评估框架

通过 LLMCompass 硬件评估框架，本研究提出了性能优化和成本效益的硬件设计选择，以实现大规模语言模型的民主化。

Dec, 2023

EdgeMoE: 基于 MoE 的大规模语言模型的快速设备上推断

EdgeMoE 是面向边缘设备的第一个在设备上推理引擎，针对稀疏 LLMs 的一种流行变体，它通过在存储层次结构中策略性地分割模型，实现了内存和计算效率的提升。它使用两种创新技术来降低专家 I/O 交换的开销，经过实证评估，与竞争性基线解决方案相比，EdgeMoE 在内存节省和性能改进方面展现出显著优势。

Aug, 2023

Flash-LLM：使用非结构稀疏性实现成本效益高且高效的大型生成模型推断

Flash-LLM 是一种针对大型生成模型的低成本高效大规模推断框架，通过优化稀疏矩阵乘法，在高性能 Tensor Cores 上实现了显著的性能提升。

Sep, 2023

一款高效稀疏推断软件加速器，用于基于转换器的语言模型在 CPU 上

本论文提出了一种基于定常块大小的高效稀疏深度学习推断软件堆栈，可以将稀疏加速器应用于 Transformer-based 语言模型，我们的稀疏加速器在处理各种 GEMM 形状时，比现有的稀疏库快一个数量级，在 Xeon 上具有高效的性能。

Jun, 2023

混合专家语言模型的快速推断与卸载

通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略，使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。

Dec, 2023

基于英特尔 GPU 的高效 LLM 推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量，在 Intel GPU 上相对于标准 HuggingFace 实现，能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。

Dec, 2023

智能无限：在真实系统上使用近存储处理进行快速大型语言模型训练

使用近存储处理设备和加速器辅助梯度压缩的存储卸载模型训练方法 Smart-Infinity 在真实系统中取得显著加速，并完全集成于 PyTorch，可提供开源使用。

Mar, 2024