May, 2024

从统一视角解开线性复杂度序列模型的秘密

TL;DR我们提出了线性复杂度序列模型(LCSM),将各种序列建模技术(包括线性注意力、状态空间模型、长卷积和线性RNN等)以及展开、振荡和收缩(EOS)三个不同阶段的建模过程融入一个统一的框架中。通过从一个连贯而简化的视角分析每个组成部分的影响,我们旨在提高对这些模型的理解能力。通过广泛的实验证明,数据驱动方法对于语言建模的三个阶段的有效性至关重要,而手工制作的方法在检索任务中表现更佳。