BriefGPT.xyz
大模型
Ask
alpha
关键词
performer
搜索结果 - 3
Sumformer: 高效 Transformer 的通用逼近
本文介绍了一种新的神经网络架构 Sumformer,可以近似等变序列到序列的函数。作者使用 Sumformer 在 Linformer 和 Performer 上实现了第一个通用的逼近结果,并提出了 Transformer 的新证明,仅需要
→
PDF
a year ago
ACL
长程变压器的自然语言处理任务效率
比较研究了多种 Transformer 模型的性能,发现长序列的改进版本在内容选择和查询引导解码方面有优势,但在处理远距离的信息和近似误差上有欠缺的地方。
PDF
2 years ago
基于 Top-k 注意力的内存高效 Transformer
本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法,基于对查询进行分块的计算,在多个数据集上的评估表明其准确性接近于 vanilla attention。
PDF
3 years ago
Prev
Next