BriefGPT.xyz
大模型
Ask
alpha
关键词
sparse factorizations
搜索结果 - 1
利用稀疏变换器生成长序列
本文介绍了一种称为 Sparse Transformers 的神经网络架构,该架构通过稀疏的注意力矩阵因式分解和其他一些技术,可以更有效地处理长序列等任务,并在 Enwik8,CIFAR-10,和 ImageNet-64 等基准数据集上创造
→
PDF
5 years ago
Prev
Next