Apr, 2024

LLoCO:离线学习长上下文

TL;DR通过上下文压缩和领域内参数高效微调,我们提出了一种解决大型语言模型处理长篇内容的挑战的新方法,使得 LLM 能够创建原始上下文的简洁表示,并有效地检索相关信息以准确回答问题。我们介绍了 LLoCO,一种通过使用 LoRA 组合上下文压缩、检索和参数高效微调的技术,将 4k 个令牌的 LLaMA2-7B 模型的有效上下文窗口扩展到处理高达 128k 个令牌。在几个长上下文问答数据集上对我们的方法进行评估,结果显示 LLoCO 在推理过程中使用 $30 imes$ 更少的令牌,显著优于上下文学习,实现了高达 $7.62 imes$ 的加速,大大降低了长文档问答的成本,为高效处理长上下文提供了有希望的解决方案。我们的代码公开可用于该 https URL。