BriefGPT.xyz
Ask
alpha
关键词
gated activation functions
搜索结果 - 1
门控状态空间实现的长序列语言模型
本论文介绍了一种基于门控状态空间(GSS)的自回归序列建模方法,该方法使用自注意力来建模局部依赖关系,从而能够有效地处理长距离依赖关系,且在英语书籍、Github 源代码和 ArXiv 数学文章上的实验表明,该方法训练速度明显快于传统方法并
→
PDF
2 years ago
Prev
Next