Aug, 2024

MemLong:用于长文本建模的记忆增强检索

TL;DR本文解决了大型语言模型在处理长上下文时面临的挑战,提出了MemLong:一种利用外部检索器进行历史信息检索的记忆增强方法。研究表明,MemLong不仅提升了长上下文语言建模的能力,还能将单个3090 GPU的上下文长度从4k扩展至80k,显著优于现有的最先进模型。