Jun, 2022

门控状态空间实现的长序列语言模型

TL;DR本论文介绍了一种基于门控状态空间(GSS)的自回归序列建模方法,该方法使用自注意力来建模局部依赖关系,从而能够有效地处理长距离依赖关系,且在英语书籍、Github 源代码和 ArXiv 数学文章上的实验表明,该方法训练速度明显快于传统方法并且具有零样本推广能力。