position encodings | BriefGPT

关键词position encodings

搜索结果 - 4

上下文计数：对变压器在定量任务上的机理研究
该研究论文介绍了一种上下文计数任务，通过理论和实证分析，揭示了 Transformer 在性能和可解释性方面的影响因素，特别是发现因果关注机制更适合该任务，并且没有位置编码可以获得最佳准确性。
PDFa month ago
无位置编码的因果 Transformer 的长度概化
通过对无位置编码（NoPE）的长度泛化属性进行研究，我们发现虽然 NoPE 可以处理比常用的明确位置编码更长的序列，但其上下文长度仍然有限。我们确定了 NoPE 泛化失败与注意力分布分散的联系，并提出了一种参数高效的调整方法，通过搜索注意力
PDF3 months ago
Transformer 模型可以实现长度概括，但不具备鲁棒性
使用适当的数据格式和位置编码的组合，本研究首次展示了标准 Transformers 在能够外推到输入长度 2.5 倍的序列长度方面的成功，然而与内分布泛化不同，长度泛化仍然是脆弱的，受到随机权重初始化和训练数据顺序等因素的显著影响，导致不同
PDF5 months ago
Transformer 长度外推：以位置编码为视角的调查
该研究论文对基于 Transformer 的预训练语言模型和长度外推问题进行了系统性的回顾，聚焦于可外推位置编码方法，旨在帮助读者深入理解已有方法并为未来研究提供启示。
PDF6 months ago