BriefGPT.xyz
Ask
alpha
关键词
self-attention matrix
搜索结果 - 3
自注意力动态中群集的出现
本文将 Transformer 视为相互作用的粒子系统,描述了当权重不随时间变化时,学习表示的几何特征,证明了表示中的粒子会在时间趋于无穷时聚集到特定的极限对象,这取决于值矩阵的谱。同时,在一维情况下,证明了自我关注矩阵收敛于低秩布尔矩阵。
→
PDF
a year ago
感受野对齐实现 Transformer 长度外推
研究了相对位置嵌入在语言模型上的应用,提出了基于对齐假设的自注意力机制,在训练过程中对齐输入,在测试过程中保证了相对位置嵌入的性质。提出的 Sandwich positional embedding 将比训练序列更长的信息融入模型之中,且由
→
PDF
2 years ago
自注意力矩阵的表达能力
本文研究了 Transformer 网络中的自注意力矩阵,重点分析了稀疏模式的逼近。我们证明了通过固定自注意力参数,采用不同的输入即可逼近各种稀疏矩阵,并提出了一种基于随机映射技术的构造性证明和算法。尤其是,在保持矩阵元素比率不变的精度下,
→
PDF
3 years ago
Prev
Next