BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-head attention layers
搜索结果 - 3
基于 Top-k 注意力的内存高效 Transformer
本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法,基于对查询进行分块的计算,在多个数据集上的评估表明其准确性接近于 vanilla attention。
PDF
3 years ago
多头注意力模型中的低秩瓶颈
本文提出了一种多头注意力机制的改进方法,将注意头的大小设置为输入序列长度,从而使注意机制的表达能力更强,能够在较小的嵌入维度下训练模型,并提高模型的性能。
PDF
4 years ago
快速 Transformer 解码:仅需要一个写头
本文提出了一种多查询关注机制,使用这种机制可以降低增量解码的内存需求,并通过实验验证了这种关注机制可以使解码速度更快,同时只会导致较小的质量损失。
PDF
5 years ago
Prev
Next