Feb, 2024

UniMem:面向长上下文大型语言模型的统一视图

TL;DR提出了 UniMem 框架,将现有的长上下文处理方法从记忆增强的角度进行统一;通过分析 Transformer-XL、Memorizing Transformer、RMT 和 Longformer 等方法,揭示它们的设计原理和优势;基于这些分析,提出了整合这些算法优势的创新方法 UniMix,并通过实验证明了 UniMix 在处理长上下文方面具有比基准模型更低的困惑度。