Feb, 2024

可学习内核函数的线性变换器在上下文模型中更好

TL;DR为了进一步推动语言模型的次二次架构,我们提出了一种简单而优雅的变化,增强了其上下文学习能力,并通过多查询联想回忆任务和整体语言建模过程在 Pile 数据集上进行了评估。