BriefGPT.xyz
大模型
Ask
alpha
关键词
long sequence data
搜索结果 - 1
EMNLP
高效远程 Transformer:你需要参与更多,但不一定是每一层
提出了一种名为 MASFormer 的变种 Transformer 模型,它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系,又能在其余层使用稀疏注意力提高计算效率。实验结果表明,该模型在自然语言建模和生成任务中能够达到与全注
→
PDF
8 months ago
Prev
Next