变压器如何学习结构化数据:来自层次过滤的洞见
本研究提出了一种高效的基于矩阵结构的层次注意力方法,并证明了这种方法在自然语言和视觉任务中捕捉层次结构的归纳偏差是有效的,相比于其他次二次方提议在Long Range Arena基准测试上平均提高了6个百分点,在One-Billion Word数据集上也取得了新的SOTA测试困惑度。
Jul, 2021
本研究探讨了基于因果变换的语言模型(LMs),例如GPT-3,需要某种形式的位置编码,例如位置嵌入。然而,我们发现在没有任何显式位置编码的情况下,这样的LM与标准模型仍然具有竞争力,这一现象在不同的数据集、模型大小和序列长度中是鲁棒的。进一步实验表明,这种模型通过网络获取隐含的绝对位置概念,从而有效弥补了缺失的信息。我们推测,因果注意力使模型能够推断每个令牌可以关注的前任数,从而近似其绝对位置。我们的发现表明,因果LMs除了显式的定位机制外,还可以从因果掩码的影响中推导出位置意识。
Mar, 2022
探究在Transformer的自我注意层中可能发生的排名坍塌现象及其影响,发现其会导致查询和键的梯度消失,导致训练受阻,但可以通过适当的深度相关的残差分支缩放来预防,而特定的架构超参数会导致查询和值的梯度的不均衡,这解释了为什么在Transformers的优化中广泛使用自适应方法。
Jun, 2022
该文探讨了怎样使用Transformer网络在算法任务中表现良好,展示了多层transformer网络在任务分解中的可靠性解决方案,以及所有相关任务中的共享计算的利用。
Oct, 2022
研究表明,当进行语言数据训练时,transformers是学习一种简单的基于树状结构的计算过程,可以解释像人类语言这样的复合意义系统,这种过程没有必要使用其完整架构的全部容量。通过无监督和无参数的方法,可以在任何transformer和树状结构之间建立功能投影,而三项不同的任务实验表明,在一些情况下,可无监督地恢复相同的树状结构,这些树状结构有助于模型的行为改进。
Nov, 2022
本文研究了神经序列和转换语言模型的层次结构泛化能力,发现通过长时间训练,模型能够学习到层次结构的一般性,对模型深度的分析证明浅层和深层不如中等深度的模型性能优秀。此发现证实了香草珂朵莉模型能够发现和使用自然语言中的层次结构。
May, 2023
提出了一种名为MASFormer的变种Transformer模型,它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系,又能在其余层使用稀疏注意力提高计算效率。实验结果表明,该模型在自然语言建模和生成任务中能够达到与全注意力的Transformer模型相媲美的性能,同时显著降低计算成本(多达75%),并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。
Oct, 2023
通过马尔可夫链的角度研究变压器的序列建模能力,并在理论和实验上研究数据分布特性、变压器结构、学习分布和模型性能之间的相互作用。
Feb, 2024
透过对自然语言数据训练的Transformer模型的研究和实验证明,具备语言建模目标的Transformer模型更容易学习和推广层次结构,并在处理无法预见的句法结构的句子时表现优异。
Apr, 2024