将语言模型适应于压缩上下文
提出了一种新颖的语义压缩方法,使得基于 Transformer 的大型语言模型(LLM)能够适用于长度为原先的 6-8 倍的文本,而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型,减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明,该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口,并且在减少相关计算开销的同时能够保持生成文本的流畅性。
Dec, 2023
该研究提出了一种名为 SoftPromptComp 的创新框架,它通过集成自然语言摘要、软提示压缩和增强型效用保留机制来为大语言模型提供流畅的上下文处理。研究结果表明,该框架显著降低了计算负担,并提高了大语言模型在各项基准测试中的效力,同时保持或增强所生成内容的质量。该研究为优化语言模型提供了见解,并探讨了软提示和摘要技术作为未来自然语言处理解决方案的关键工具的潜力。
Apr, 2024
使用选择性上下文方法(Selective Context)可以显著提高大型语言模型(LLMs)的推理效率,减少内存占用和推理时间,并在维持可比较性能的基础上实现对上下文成本的 50%降低,36%的推理内存使用率降低以及 32%的推理时间降低。
Oct, 2023
将检索到的文档压缩为文本摘要,以降低计算成本并减轻语言模型的负担,以提高任务性能;在语言建模和开放域问题回答任务中,以最低为 6% 的压缩率实现性能上最小损失,并在给定一种语言模型训练方法时能够迁移到其他语言模型,并提供与检索文档基本一致的摘要。
Oct, 2023
本文提出一种在在线场景(如 ChatGPT)中用于 Transformer 语言模型的新型上下文压缩方法,将不断扩展的上下文压缩到紧凑的记忆空间中,并通过轻量级条件 LoRA 在推理过程中实现对压缩上下文记忆的操作,从而减小内存和注意力操作,实现与完整上下文模型相当的性能,但所需上下文内存空间仅为原来的五分之一。
Dec, 2023
通过使用 In-Context Former 方法,我们成功减少了基于 Transformer 的大型语言模型的压缩成本,并使得实时压缩的场景成为可能。
Jun, 2024
通过增量压缩指定范围的令牌的中间激活,我们提出了一种即插即用的方法,从而在处理后续上下文时减少了内存和计算成本。实验证明,与稀疏注意力基线相比,我们的方法在流畅度、n-gram 匹配和语义相似性方面具有优势。最后,我们全面评估了上下文压缩对系统改进的益处。
Oct, 2023
使用递归上下文压缩方法(RCC)有效地扩展了基于 Transformer 的大型语言模型 (LLMs) 的上下文窗口长度,解决了模型回应质量变差的问题,并以接近 0.95 的 BLEU4 得分在文本重建任务中实现了高达 32 倍的压缩率,以及在 1M 序列长度的密码检索任务中近乎 100%的准确率,同时在长文本问答任务中表现出与非压缩方法相媲美的性能,并显著节省了存储资源。
Jun, 2024
通过将较长的提示转换为自然语言格式的胶囊式提示,利用奖励函数和长度约束来优化 Nano-Capsulator 框架,该框架可以在保持提示效用和可迁移性的同时,减少 81.4%的长度、提高推理速度 4.5 倍,并降低 80.1%的预算开销。
Feb, 2024
本文探讨了在高度压缩的文本上训练大型语言模型(LLMs)的想法。通过提出等信息窗口这一新的压缩技术,我们展示了在神经压缩文本上有效学习的方法,该方法在规模上得到了改进,并在复杂度和推理速度基准测试中大大优于字节级基准。
Apr, 2024