BriefGPT.xyz
大模型
Ask
alpha
关键词
t5's relative pe
搜索结果 - 1
位置编码对 Transformer 中长度推广的影响
本文研究了基于解码器的 Transformer 模型在用不同的位置编码方式时对长度泛化的影响,发现在一系列的推理和数学任务中,NoPE 的表现比其它方法更为优秀,而且无需额外计算。理论上,NoPE 能够代表绝对和相对位置嵌入,但在使用 SG
→
PDF
a year ago
Prev
Next