大型语言模型中上下文压缩的上下文自编码器

Jul, 2023

大型语言模型中上下文压缩的上下文自编码器

In-context Autoencoder for Context Compression in a Large Language Model

Tao Ge, Jing Hu, Xun Wang, Si-Qing Chen, Furu Wei

TL;DR本文提出了一种上下文自动编码器（ICAE），用于大型语言模型中的上下文压缩，并且证实了 ICAE 的潜在推广价值。

Abstract

We propose the in-context autoencoder (ICAE) for context compression in a large language model (LLM). The ICAE has two modules: a learnabl

in-context autoencoder context compression large language model pretraining fine-tuning

发现论文，激发创造

XC-Cache: 为高效 LLM 推理跨越关注缓存上下文

引入了受编码器 - 解码器结构启发的模型，利用交叉注意力将生成模型与参考文本进行条件化。这些模型仅训练少量添加的层，并在问答测试中表现出优异的条件生成能力，超越了上下文学习，并相对于标准 KV 缓存方法极大地减少了空间占用。

Apr, 2024

并行上下文编码的长文本语言建模

通过引入上下文扩展并行编码（CEPE）框架，可以将现有的仅解码的大型语言模型（LLMs）的上下文窗口扩展，使其能够更有效地处理长输入并且在检索增强应用中表现优异。

Feb, 2024

LLoCO：离线学习长上下文

通过上下文压缩和领域内参数高效微调，我们提出了一种解决大型语言模型处理长篇内容的挑战的新方法，使得 LLM 能够创建原始上下文的简洁表示，并有效地检索相关信息以准确回答问题。我们介绍了 LLoCO，一种通过使用 LoRA 组合上下文压缩、检索和参数高效微调的技术，将 4k 个令牌的 LLaMA2-7B 模型的有效上下文窗口扩展到处理高达 128k 个令牌。在几个长上下文问答数据集上对我们的方法进行评估，结果显示 LLoCO 在推理过程中使用 $30 imes$ 更少的令牌，显著优于上下文学习，实现了高达 $7.62 imes$ 的加速，大大降低了长文档问答的成本，为高效处理长上下文提供了有希望的解决方案。我们的代码公开可用于该 https URL。

Apr, 2024

内上下文格式：大型语言模型的快速压缩上下文

通过使用 In-Context Former 方法，我们成功减少了基于 Transformer 的大型语言模型的压缩成本，并使得实时压缩的场景成为可能。

Jun, 2024

上下文语言学习：结构和算法

通过研究在背景语境中的大规模神经语言模型对正则语言的学习，我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势，并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。

Jan, 2024

自监督表示学习的上下文自编码器

本研究提出一种基于模型对模糊图像的建模方法，即上下文自编码器（CAE），用于自我监督的表示预训练，其中引入了一种对齐约束，以使从可见补丁中预测的表示在编码表示空间中进行排列。相比之前的 MIM 方法，我们的方法利于表示学习和下游任务的进行。通过在语义分割和物体检测和实例分割等下游任务中表现，我们证明了我们的 CAE 的有效性。

Feb, 2022

通过语义压缩扩展大型语言模型的上下文窗口

提出了一种新颖的语义压缩方法，使得基于 Transformer 的大型语言模型（LLM）能够适用于长度为原先的 6-8 倍的文本，而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型，减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明，该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口，并且在减少相关计算开销的同时能够保持生成文本的流畅性。

Dec, 2023

基于朴素贝叶斯的大型语言模型的上下文扩展

通过 Naive Bayes-based Context Extension (NBCE) 框架，可以扩展现有的大型语言模型（LLMs）的上下文大小，从而提高其在上下文学习上的性能。实验结果表明，NBCE 显著增强了性能，尤其是在示范示例数量增加时，始终优于其他方法。

Mar, 2024

在线语言模型交互的压缩上下文记忆

本文提出一种在在线场景（如 ChatGPT）中用于 Transformer 语言模型的新型上下文压缩方法，将不断扩展的上下文压缩到紧凑的记忆空间中，并通过轻量级条件 LoRA 在推理过程中实现对压缩上下文记忆的操作，从而减小内存和注意力操作，实现与完整上下文模型相当的性能，但所需上下文内存空间仅为原来的五分之一。

Dec, 2023

关于环境学习校准的研究

现代自回归语言模型研究了在上下文学习中，如何在广泛数据上通过预测下一个令牌以最小化对数损失，以获得校准答案。通过大量实验，发现当增加模型大小、增加上下文学习示例以及使用指导、对话或强化学习等方法在精心策划的数据集上对模型进行微调时，性能和校准之间存在权衡，并且常用的重新校准技术在校准错误方面的改善有限，因此在期望模型可靠性的设置下，可能需要新的方法。

Dec, 2023