快速、紧凑、准确：压缩后缀树的无限阶语言建模

ACLAug, 2016

快速、紧凑、准确：压缩后缀树的无限阶语言建模

Fast, Small and Exact: Infinite-order Language Modelling with Compressed Suffix Trees

Ehsan Shareghi, Matthias Petri, Gholamreza Haffari, Trevor Cohn

TL;DR本文介绍一种基于压缩后缀树的语言模型，该模型具有高度紧凑的表现形式，可在内存中轻松容纳，并支持在计算语言模型概率时所需的查询。该模型在构建时间和内存使用方面仅会导致适度的增加，但是可以通过多种优化方式提高查询运行时间，达到高达 2500 倍的提速效果。在大规模语料库和高马尔可夫阶数的应用场景下，该方法与现有的 KenLM 算法相比具有高度的竞争力，并且所需的内存要求通常低好几个数量级，查询运行时间相当或略快。

Abstract

Efficient methods for storing and querying are critical for scaling high-order n-gram language models to large corpora. We propose a language model based on compressed suffix trees, a representation that is highl

n-gram language models compressed suffix trees query optimization memory efficiency probability computation

发现论文，激发创造

EDGE-LLM：通过层间统一压缩和自适应层调整与投票在边缘设备上实现高效的大型语言模型适应

边缘设备上实现的大型语言模型 (LLM) 的高效调整是连续和隐私保护适应和推理所需的关键，本研究介绍了一种计算和内存高效的 LLM 调整框架 Edge-LLM，通过生成逐层剪枝稀疏性和量化位宽策略来减少计算开销，通过减少反向传播深度的自适应层调整和投票方案来减少内存开销，通过处理 LUC 和自适应层调整引入的不规则计算模式的互补硬件调度策略来实现高效的计算和数据移动。实验证明，Edge-LLM 相比原始调整方法在任务准确性相当的情况下实现了 2.92 倍的加速和 4 倍的内存开销降低。

Jun, 2024

ElasticRec：一种基于微服务的模型服务架构，实现对推荐模型的弹性资源扩缩容

ElasticRec 是一种模型服务架构，为推荐系统提供资源弹性性和高内存效率。相较于现有推荐系统预测服务系统，ElasticRec 通过微服务的软件架构和基于效用的资源分配实现了平均内存分配大小的 3.3 倍减少、内存效用的 8.1 倍增加，从而降低了 1.6 倍的部署成本。

Jun, 2024

LLM 的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合，有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。

Jun, 2024

S3D：一种用于低内存 GPU 的简单且具有成本效益的自我推测解码方案

Skippy Simultaneous Speculative Decoding (S3D) 是一种成本有效、基于同时多令牌解码和中间层跳跃的自我推测 SD 方法，与最近的有效开源 SD 系统相比，它在性能 - 内存比上取得了最佳表现，而且只需要最小的架构改变和训练数据。利用我们的内存效率，我们基于 Phi-3 创建了一个更小、更高效的 SD 模型，它比量化的 EAGLE 模型快 1.4 到 2 倍，使用半精度操作，同时使用更少的 VRAM。

May, 2024

前向 - 后向知识蒸馏的持续聚类

在无监督连续聚类（UCC）中，引入了前向 - 后向知识蒸馏（FBCC）的概念，以解决连续学习中的灾难性遗忘问题，通过使用单个连续学习器和多个学生模型来改善聚类的性能和内存效率。

May, 2024

可控内存的管道并行

通过重复构建块的方式，将流水线调度分解为生命周期的概念，并发现现有调度方案在内存利用方面存在问题。为了解决这个问题，引入了一系列具有可控激活内存的高效构建块，可以在不影响效率的情况下将峰值激活内存减少到 1F1B 的 1/2 甚至 1/3，同时几乎没有流水线气泡，以及在吞吐量方面表现优于 1F1B。在实践场景中对混合并行化超参数进行网格搜索时，相较于 1F1B 基准，我们提出的方法在大型语言模型上实现了 16% 的吞吐量提升。

May, 2024

CoMERA：基于等级自适应张量优化的计算和内存高效训练

CoMERA 是一种通过排名自适应张量优化进行计算和内存高效训练的方法，通过多目标优化公式实现端到端的张量压缩训练，并在训练过程中提供了高压缩比和优良的准确性，同时比 GaLore 方法在内存和计算效率方面表现更优。

May, 2024

SnapKV: LLM 在生成之前了解您要寻找的内容

SnapKV 是一种创新且无需微调的方法，它通过选择每个注意力头的重要键值位置来高效地减小键值存储缓存的大小，从而在处理长输入序列时显著降低了计算开销和内存占用，同时保持了与基准模型相当的性能。

Apr, 2024

层次化上下文合并：提升预训练语言模型对长上下文的理解能力

本文介绍了一种名为 HOMER 的新的无需训练的方案，它使用分而治之的算法将长输入划分为可管理的块，并采用逐层合并的分层策略，以解决大语言模型在上下文限制方面的问题，同时还提出了一种优化的计算顺序，使其对输入长度的内存需求呈对数尺度变化，从而提高了性能和内存效率。

Apr, 2024

预打包：大语言模型快速预填和增加吞吐量的简单方法

使用 Prepacking 方法优化 transformer-based 大型语言模型的 prefilling 计算，通过将不同长度的输入 prompt 组合成一个序列，并使用 bin-packing 算法将多个序列打包成一个紧凑的批次，从而减少冗余计算和提高内存效率。

Apr, 2024