BriefGPT.xyz
Ask
alpha
关键词
re-parametrize
搜索结果 - 1
多头注意力:合作而非串联
该论文提出了一种协作式多头注意力层,该方法通过共享 key/query 投影来降低注意力层中参数的数量,可以用于任何变压器体系结构,并对语言理解、机器翻译和计算机视觉方面进行了验证和实验,并可将预训练的多头注意力层重新参数化为协同注意力层,
→
PDF
4 years ago
Prev
Next