Dec, 2023

动物学:在高效语言模型中测量和提高回忆率

TL;DR我们研究了无需注意力的语言模型,结合了门控和卷积的方法,发现在上下文角色联想回忆方面,注意力模型优于门控卷积模型。通过开发一项新的任务形式,多查询角色联想回忆(MQAR),我们证明了注意力和门控卷积模型之间参数效率的差异,并提出了输入相关的稀疏注意力模式来减小两者之间的差距,并且保持亚二次缩放。