BriefGPT.xyz
大模型
Ask
alpha
关键词
self-attention variance
搜索结果 - 1
ACL
无需位置嵌入,自注意力变化中潜在位置信息的转换语言模型
本研究论述了传统 Transformer 语言模型中位置嵌入的必要性,提出随机初始化且去除位置嵌入的模型仍具备显著的位置信息,可以舍弃位置嵌入以提高预训练模型的效率。
PDF
a year ago
Prev
Next