BriefGPT.xyz
Ask
alpha
关键词
position encodings
搜索结果 - 4
上下文计数:对变压器在定量任务上的机理研究
该研究论文介绍了一种上下文计数任务,通过理论和实证分析,揭示了 Transformer 在性能和可解释性方面的影响因素,特别是发现因果关注机制更适合该任务,并且没有位置编码可以获得最佳准确性。
PDF
a month ago
无位置编码的因果 Transformer 的长度概化
通过对无位置编码(NoPE)的长度泛化属性进行研究,我们发现虽然 NoPE 可以处理比常用的明确位置编码更长的序列,但其上下文长度仍然有限。我们确定了 NoPE 泛化失败与注意力分布分散的联系,并提出了一种参数高效的调整方法,通过搜索注意力
→
PDF
3 months ago
Transformer 模型可以实现长度概括,但不具备鲁棒性
使用适当的数据格式和位置编码的组合,本研究首次展示了标准 Transformers 在能够外推到输入长度 2.5 倍的序列长度方面的成功,然而与内分布泛化不同,长度泛化仍然是脆弱的,受到随机权重初始化和训练数据顺序等因素的显著影响,导致不同
→
PDF
5 months ago
Transformer 长度外推:以位置编码为视角的调查
该研究论文对基于 Transformer 的预训练语言模型和长度外推问题进行了系统性的回顾,聚焦于可外推位置编码方法,旨在帮助读者深入理解已有方法并为未来研究提供启示。
PDF
6 months ago
Prev
Next