Jul, 2024

基于内存的大型语言模型中的针头引线

TL;DR本文展示了使用增强记忆的大型语言模型(LLM)架构在提高从潜在长上下文中召回事实的能力方面的好处。我们以LARIMAR为案例研究,它是最近提出的一种LLM架构,通过在LLM解码器上增加外部关联内存来增强性能,并在几个长上下文召回任务中进行测试,包括密码测试和大海捞针测试。我们证明了测试时可以适应比训练中观察到的更长上下文,同时保持经过训练的解码器可以识别的内存读出结果,而不增加GPU内存占用。与参数数量相近的长上下文召回任务的其他替代架构相比,LARIMAR可以在没有任何特定任务训练的情况下保持强大的性能。