Feb, 2024

简单线性注意力语言模型平衡召回 - 吞吐量的权衡

TL;DR通过应用实验和理论到广泛的架构上,我们发现语言模型的状态大小与召回能力之间存在关键权衡。我们提出了一种名为 BASED 的简单架构,结合了线性和滑动窗口的注意力机制,通过改变窗口大小和线性注意力特征维度,我们可以在召回 - 内存权衡曲线的帕累托边界上调整状态大小。我们训练了多达 13 亿参数的语言模型,并表明 BASED 在困惑度上与最强的次二次模型相匹配,在现实世界的召回密集型任务中,其准确性超过了它们 6.22 个百分点。