利用 UltraGist 压缩长篇背景
使用选择性上下文方法(Selective Context)可以显著提高大型语言模型(LLMs)的推理效率,减少内存占用和推理时间,并在维持可比较性能的基础上实现对上下文成本的 50%降低,36%的推理内存使用率降低以及 32%的推理时间降低。
Oct, 2023
该论文旨在介绍一种新型的 AutoCompressors 语言模型,可以将长文档内容压缩成简洁的总结向量,并将其用作语言模型的轻提示,从而提高了模型处理长文本时间的效率,并在任务演示、检索等领域取得了显著进展。
May, 2023
本文提出一种在在线场景(如 ChatGPT)中用于 Transformer 语言模型的新型上下文压缩方法,将不断扩展的上下文压缩到紧凑的记忆空间中,并通过轻量级条件 LoRA 在推理过程中实现对压缩上下文记忆的操作,从而减小内存和注意力操作,实现与完整上下文模型相当的性能,但所需上下文内存空间仅为原来的五分之一。
Dec, 2023
提出了一种新颖的语义压缩方法,使得基于 Transformer 的大型语言模型(LLM)能够适用于长度为原先的 6-8 倍的文本,而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型,减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明,该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口,并且在减少相关计算开销的同时能够保持生成文本的流畅性。
Dec, 2023
通过使用 In-Context Former 方法,我们成功减少了基于 Transformer 的大型语言模型的压缩成本,并使得实时压缩的场景成为可能。
Jun, 2024
通过使用先进的语言模型的高级语言能力,ReadAgent 系统提出来解决当前大型语言模型的上下文长度限制以及长输入的问题,并通过将内容存储到内存片段中,将其压缩为称为要点内存的短暂记忆,并在需要时在原始文本中查找相关细节,从而在三个长文档阅读理解任务上胜过基线方法,同时将有效上下文窗口增加了 3-20 倍。
Feb, 2024
在长语境下,评估零样本压缩技术对大型语言模型 (LLMs) 的有效性,发现在应用某些压缩方法时,计算错误的趋势会增加。提出一种假设来解释不同 LLM 压缩技术的不同行为,并探索减轻某些技术在长语境下性能下降的方法。
Jun, 2024
该研究提出了 Gist COnditioned deCOding (Gist-COCO) 模型,利用编码器和解码器构建语言模型,并使用附加的编码器插件模块进行输入压缩,将表示的要点标记转化为要点提示,以高压缩率优于以往的要点压缩模型,辅助大型语言模型在不同任务中的表现。
Feb, 2024
使用 GistScore 度量示例 Gisting 的新方法,基于 Fine-tuned 模型实现最新的 in-context learning(ICL),在 21 个不同数据集上,可以获得超过 20% 绝对平均增益,且速度比之前最佳的非训练法提高了数千倍。
Nov, 2023
本文提出了一种新颖的神经网络抽取式文档摘要模型,结合整个文档的全局上下文和当前主题内的局部上下文;我们在 Pubmed 和 arXiv 两个科学论文数据集上评估了该模型,并在 ROUGE-1,ROUGE-2 和 METEOR 分数上优于以前的工作,包括抽象模型和提取模型;更为惊讶的是,消融分析表明,我们的模型的好处似乎仅来自于对局部上下文的建模,即使对于最长的文档。
Sep, 2019