MemLong：用于长文本建模的记忆增强检索

Aug, 2024

MemLong：用于长文本建模的记忆增强检索

MemLong: Memory-Augmented Retrieval for Long Text Modeling

Weijie Liu, Zecheng Tang, Juntao Li, Kehai Chen, Min Zhang

TL;DR本文解决了大型语言模型在处理长上下文时面临的挑战，提出了MemLong：一种利用外部检索器进行历史信息检索的记忆增强方法。研究表明，MemLong不仅提升了长上下文语言建模的能力，还能将单个3090 GPU的上下文长度从4k扩展至80k，显著优于现有的最先进模型。

Abstract

Recent advancements in Large Language Models (LLMs) have yielded remarkable success across diverse fields. However, handling long contexts remains a significant challenge for LLMs due to the quadratic time and space complexity of attention mechanisms and the growing memory consumption of the key-value cache during generation. This work introduces MemLong:

发现论文，激发创造

增强语言模型的长期记忆

提出了一种名为LongMem的框架，该框架通过引入长期记忆机制，使得语言模型能够利用历史上下文信息，从而使得模型在文本生成等任务中取得了优异效果。

Jun, 2023

自检索的长距离语言建模

本文中，我们提出了一种用于从头开始联合训练检索增强语言模型的架构和训练流程，名为Retrieval-Pretrained Transformer（RPT），并使用四个长程语言建模任务进行了评估，横跨图书、代码和数学写作，证明了与强基线相比，RPT改善了整体的检索质量和困惑度。

Jun, 2023

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入LongBench，对8个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

检索与长上下文大语言模型的融合

通过研究使用两种最先进的预训练大型语言模型进行检索增强和长上下文窗口的解决方案，我们发现使用简单的检索增强在生成时可以实现与微调后的具有16K上下文窗口通过位置插值在长上下文任务上具有可比性能的4K上下文窗口的大型语言模型，而计算量较小。此外，我们证明检索可以显著提高大型语言模型的性能，而不受其扩展上下文窗口大小的限制。我们的最佳模型，检索增强的32K上下文窗口的LLaMA2-70B，在7个长上下文任务中，包括问答和基于查询的摘要，的平均得分方面优于GPT-3.5-turbo-16k和Davinci003。它还在生成速度上优于其非检索的LLaMA2-70B-32k基线。我们的研究为从业者提供了关于选择检索增强与扩展大型语言模型的长上下文的一般见解。

Oct, 2023

使用LoCo和M2-BERT进行长上下文检索模型的基准测试和构建

为了解决长文本检索中的问题，研究人员引入了LoCoV1任务基准和M2-BERT检索编码器，通过预训练和微调方法，实现了对长文本的高效检索能力。

Feb, 2024

MemLLM: 对LLMs进行精调，使用显式读写内存

我们介绍了MemLLM，这是一种通过整合结构化且显式的读写内存模块来增强LLMs的新方法。 MemLLM通过使内存与LLM的动态交互，改善了LLM在使用存储的知识方面的能力，从而解决了上述挑战。我们的实验结果表明，MemLLM提高了LLM的性能和可解释性，尤其是在语言建模和知识密集型任务中。我们认为MemLLM是使LLMs通过内存增强更加扎实和事实准确的重要一步。

Apr, 2024

FlashBack:长文本推理的高效检索增强语言建模

通过将外部语料库的相关文档与大型语言模型（LLM）集成，检索增强语言建模（RALM）是一种已被证明的方法，可以让LLM生成超出其预训练语料库范围的信息。本文提出了FlashBack，一种模块化的RALM，通过在上下文末尾附加检索到的文档来提高RALM的推理效率，同时在特定的微调后保持良好的性能，而不会严重破坏LLM的知识完整性。

May, 2024

不留下任何文件: 扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

大型语言模型作为下一代密集检索的基础：全面的实证评估

本研究解决了传统检索模型在领域准确性和推广能力方面的不足，通过对多种检索任务的全面实证研究，评估了大型语言模型（LLMs）的性能。研究发现，较大的模型和广泛的预训练能够持续提升领域准确性和数据有效性，并在零样本推广和多任务学习等方面展现出显著潜力，这为未来相关领域的研究与开发提供了重要见解。

Aug, 2024

大型语言模型作为下一代密集检索的基础：全面的实证评估

本研究针对传统检索模型在特定领域的准确性和泛化能力不足的问题，采用大型语言模型（LLMs）进行评估，探讨其在密集检索中的独特优势。研究结果表明，较大的模型和更长的预训练时间能够显著提高领域内准确性和数据效率，同时在零样本泛化、长检索等多任务学习中具有重要潜力，这为未来的研究和开发提供了有价值的见解。

Aug, 2024