BriefGPT.xyz
Ask
alpha
关键词
scaling pre-trained language models
搜索结果 - 1
EMNLP
对抗多头:利用注意力头嵌入实现高效参数的多头注意力
我们提出了一种使用单个共享投影矩阵和多个头嵌入(MHE)的替代模块,实验证明我们的 MHE 关注机制在多个下游任务上显著提高了内存效率,并且相对于 MHA 仅需要可忽略的附加参数。
PDF
9 months ago
Prev
Next