LoMA:无损压缩的内存注意力
在本文中,我们探索了 Key-Value 缓存的低秩特性,并提出了一种压缩 Key-Value 头部的新方法,该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能,为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。
Jun, 2024
使用大型语言模型 LLaMA-7B,我们给出了一组英文熵的渐进上界估计,并基于该估计提出了一种结合大型语言模型和无损压缩方案的英文文本无损压缩算法,初步结果显示出优于 BSC,ZPAQ 和 paq8h 等现有文本压缩方案的性能。
Jun, 2023
基于 Vision-Language Models 的 VoCo-LLaMA 方法通过引入 Vision Compression tokens 和利用 attention distillation,实现了视觉压缩并提高推理效率,能够理解时间相关性,在多模态应用中具有广泛的潜力。
Jun, 2024
通过引入关联记忆模块,在不需要重新训练的情况下,使得任何预训练(固定)基于注意力的大型语言模型能够处理任意长的输入序列,从而在长文本建模中实现了显著的困惑度降低。
Feb, 2024
我们将理解过程视为信息压缩,并提出了一种基于无损数据压缩的大型语言模型(LLMs)排序方法。我们使用五个大型语言模型作为压缩的先验,并比较它们在困难的自然语言处理任务中的性能,包括句子完成、问题回答和共指消解。实验结果表明,压缩比率和模型性能呈正相关,因此可以作为评估大型语言模型的通用指标。
Jun, 2024
尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题,但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议,通过其揭示了当前最先进的压缩方法的优点和缺点,并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。
Oct, 2023
本文提出一种在在线场景(如 ChatGPT)中用于 Transformer 语言模型的新型上下文压缩方法,将不断扩展的上下文压缩到紧凑的记忆空间中,并通过轻量级条件 LoRA 在推理过程中实现对压缩上下文记忆的操作,从而减小内存和注意力操作,实现与完整上下文模型相当的性能,但所需上下文内存空间仅为原来的五分之一。
Dec, 2023
通过上下文压缩和领域内参数高效微调,我们提出了一种解决大型语言模型处理长篇内容的挑战的新方法,使得 LLM 能够创建原始上下文的简洁表示,并有效地检索相关信息以准确回答问题。我们介绍了 LLoCO,一种通过使用 LoRA 组合上下文压缩、检索和参数高效微调的技术,将 4k 个令牌的 LLaMA2-7B 模型的有效上下文窗口扩展到处理高达 128k 个令牌。在几个长上下文问答数据集上对我们的方法进行评估,结果显示 LLoCO 在推理过程中使用 $30 imes$ 更少的令牌,显著优于上下文学习,实现了高达 $7.62 imes$ 的加速,大大降低了长文档问答的成本,为高效处理长上下文提供了有希望的解决方案。我们的代码公开可用于该 https URL。
Apr, 2024