层次化上下文合并：提升预训练语言模型对长上下文的理解能力

ICLRApr, 2024

层次化上下文合并：提升预训练语言模型对长上下文的理解能力

Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs

Woomin Song, Seunghyuk Oh, Sangwoo Mo, Jaehyung Kim, Sukmin Yun...

TL;DR本文介绍了一种名为 HOMER 的新的无需训练的方案，它使用分而治之的算法将长输入划分为可管理的块，并采用逐层合并的分层策略，以解决大语言模型在上下文限制方面的问题，同时还提出了一种优化的计算顺序，使其对输入长度的内存需求呈对数尺度变化，从而提高了性能和内存效率。

Abstract

large language models (LLMs) have shown remarkable performance in various natural language processing tasks. However, a primary constraint they face is the context limit, i.e., the maximum number of tokens they c

large language models context limit hierarchical context merging training-free scheme memory efficiency

发现论文，激发创造

HMT：用于长文本语言处理的分层记忆变形器

通过模仿人脑记忆层次结构，我们提出了分层记忆 Transformer（HMT）框架，以提高模型的长上下文处理能力，并通过在限定上下文和长上下文模型上的评估验证了其有效性。

May, 2024

通过语义压缩扩展大型语言模型的上下文窗口

提出了一种新颖的语义压缩方法，使得基于 Transformer 的大型语言模型（LLM）能够适用于长度为原先的 6-8 倍的文本，而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型，减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明，该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口，并且在减少相关计算开销的同时能够保持生成文本的流畅性。

Dec, 2023

增强语言模型的长期记忆

提出了一种名为 LongMem 的框架，该框架通过引入长期记忆机制，使得语言模型能够利用历史上下文信息，从而使得模型在文本生成等任务中取得了优异效果。

Jun, 2023

UniMem：面向长上下文大型语言模型的统一视图

提出了 UniMem 框架，将现有的长上下文处理方法从记忆增强的角度进行统一；通过分析 Transformer-XL、Memorizing Transformer、RMT 和 Longformer 等方法，揭示它们的设计原理和优势；基于这些分析，提出了整合这些算法优势的创新方法 UniMix，并通过实验证明了 UniMix 在处理长上下文方面具有比基准模型更低的困惑度。

Feb, 2024

提升模型的上下文理解能力与更长更好的语境

最近，随着大量的大型语言模型（LLMs）的出现，人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构，但对于 LLMs 来说，能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上，提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下，实现更长、更好的上下文理解。我们的实验在 XSum 上进行，与原始生成结果相比取得了显著改进。

Jul, 2023

LLM 或许为 LongLM: 无需调整自我延伸 LLM 上下文窗口

通过自扩展方法，利用现有的大型语言模型的内在能力来处理长文本，并延伸其上下文窗口，以有效应对长输入序列。

Jan, 2024

CAMELoT：针对不需要训练的集成联想存储的大型语言模型

通过引入关联记忆模块，在不需要重新训练的情况下，使得任何预训练（固定）基于注意力的大型语言模型能够处理任意长的输入序列，从而在长文本建模中实现了显著的困惑度降低。

Feb, 2024

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

超越极限：大型语言模型中扩展上下文长度的技术综述

本文调查了扩展序列长度的技术和方法，包括架构修改和注意机制的改变等多种方法，并讨论了当前方法的局限性和未来研究方向建议，强调了序列长度对大型语言模型进一步发展的重要性。

Feb, 2024

上下文预训练：超越文档边界的语言建模

大型语言模型通过 In-Context 预训练，在处理涉及相关文档的任务时，能够显著提高性能，包括复杂的语境推理、长文本推理、检索增强等。

Oct, 2023