Feb, 2024

LongHeads:多头注意力暗地里是一个长上下文处理器

TL;DR通过解锁多头注意力的潜力,我们提出了一个无需额外训练的框架 LongHeads,以增强大语言模型(LLMs)在处理长篇输入方面的能力,通过选择和关注重要的上下文块来确保各个头能够有效地处理训练长度内的被关注的标记,同时不同层的不同头可以共同处理更长的上下文,有效地扩展了现有模型的可用上下文窗口,展示了对增强长文本理解的潜力。