Feb, 2024
LongHeads:多头注意力暗地里是一个长上下文处理器
LongHeads: Multi-Head Attention is Secretly a Long Context Processor
Yi Lu, Xin Zhou, Wei He, Jun Zhao, Tao Ji...
TL;DR通过解锁多头注意力的潜力,我们提出了一个无需额外训练的框架 LongHeads,以增强大语言模型(LLMs)在处理长篇输入方面的能力,通过选择和关注重要的上下文块来确保各个头能够有效地处理训练长度内的被关注的标记,同时不同层的不同头可以共同处理更长的上下文,有效地扩展了现有模型的可用上下文窗口,展示了对增强长文本理解的潜力。