Feb, 2024
UniMem:面向长上下文大型语言模型的统一视图
UniMem: Towards a Unified View of Long-Context Large Language Models
Junjie Fang, Likai Tang, Hongzhe Bi, Yujia Qin, Si Sun...
TL;DR提出了 UniMem 框架,将现有的长上下文处理方法从记忆增强的角度进行统一;通过分析 Transformer-XL、Memorizing Transformer、RMT 和 Longformer 等方法,揭示它们的设计原理和优势;基于这些分析,提出了整合这些算法优势的创新方法 UniMix,并通过实验证明了 UniMix 在处理长上下文方面具有比基准模型更低的困惑度。