BriefGPT.xyz
大模型
Ask
alpha
关键词
relative positional embedding
搜索结果 - 2
感受野对齐实现 Transformer 长度外推
研究了相对位置嵌入在语言模型上的应用,提出了基于对齐假设的自注意力机制,在训练过程中对齐输入,在测试过程中保证了相对位置嵌入的性质。提出的 Sandwich positional embedding 将比训练序列更长的信息融入模型之中,且由
→
PDF
2 years ago
使用并行计划采样和相对位置嵌入器改进 Transformer 对于语音识别的泛化能力
本文中,我们提出了一种采用 parallel scheduling sampling (PSS) 和 relative positional embedding (RPE) 来帮助 Transformer 泛化到看不见的数据的方法。我们的方
→
PDF
5 years ago
Prev
Next