ICLRApr, 2024

层次化上下文合并:提升预训练语言模型对长上下文的理解能力

TL;DR本文介绍了一种名为 HOMER 的新的无需训练的方案,它使用分而治之的算法将长输入划分为可管理的块,并采用逐层合并的分层策略,以解决大语言模型在上下文限制方面的问题,同时还提出了一种优化的计算顺序,使其对输入长度的内存需求呈对数尺度变化,从而提高了性能和内存效率。