克服自注意力机制的理论限制
在变压器架构下,输入空间敏感性限制了损失函数的变化趋势,使得变压器在一般化方面表现出低敏感性和低程度的偏好,并且在计算简单形式语言(如 PARITY)和长度一般化方面存在困难。
Feb, 2024
本文系统研究了 Transformers 模型在模拟正则语言和反计数语言中的能力,并探讨了其中各组件的作用,发现相比于 LSTMs,在某些行为建模上有一定优势,同时也揭示了自我注意机制和位置编码对模型学习和泛化能力的影响。
Sep, 2020
本研究证明了计算精度对数与输入标记数量相关的 transformer 神经网络可以通过常深度对数空间均匀阈值电路进行模拟,并且从复杂性理论的角度提供了关于 transformer 网络计算力的见解,这表明如果 L≠P,那么 transformer 神经网络甚至无法精确解决线性等式或检查产生空符号的任意上下文无关语法的成员身份,因此研究也推测性地引入了一种基本的并行性权衡观念:与 transformer 一样并行化的任何模型体系结构都将遵守类似的限制,这暗示了放大模型范式的潜在固有弱点。
Jul, 2022
研究信息在解码器单独的 Transformer 模型中的传播,发现了表示崩溃现象和对特定标记的敏感性丧失,并提供了简单的解决方案。
Jun, 2024
本文分析了三种 Transformer 编码器的形式模型,比较它们的自注意力机制:unique hard attention(UHAT)、generalized unique hard attention(GUHAT)和 averaging hard attention(AHAT)。我们发现,UHAT 和 GUHAT Transformer 只能识别 AC$^0$ 复杂性类中的正式语言,而 AHAT 网络可以识别 UHAT 和 GUHAT 不能识别的语言。
Apr, 2022
调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务,我们证明了 Transformer 在训练时具有泛化性,但需要大量的训练数据;对于具有符号标签的 (ii) 下一个令牌预测任务,我们展示了一种 “反比例尺律”:随着嵌入维度的增加,Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况,我们提出了微妙的 Transformer 修改,通过每个头部添加两个可训练参数来减少所需的数据量。
Oct, 2023
该研究论文探讨了 Transformer 语言模型与 n-gram 语言模型之间的关系,通过分析机器学习模型的概率表示能力,提供了对 Transformer 语言模型代表概率分布的机制的初步认识。
Apr, 2024
尽管 Transformer 在自然语言处理任务中表现良好,但最近的研究表明自我注意力在学习一些常规和无上下文语言时在理论上存在限制。我们测试了 Transformer 学习各种复杂性的轻度上下文敏感语言的能力,发现它们对未见过的分布数据具有良好的泛化能力,但它们对较长字符串的外推能力不及 LSTMs。我们的分析表明,学得的自我注意力模式和表示模拟了依赖关系并展示了计数行为,这可能有助于模型解决这些语言。
Sep, 2023
提出两种新方法,降低输入长度并在语言建模中实现困惑度和效率的提升。首先,我们研究了短输入的优点并发现通过训练模型的短子序列可以减少训练时间和提高困惑度。其次,我们提高了 transformers 的递归方法的效率,这是一种让模型在生成超过 transformer 一次可以处理的最大长度的序列时依赖于先前处理的令牌的方法。我们引入了一个简单的替代方法,通过将绝对位置嵌入到查询和键中而不是嵌入到单词中,可以在保持结果优越的情况下提高计算效率。将这些技术结合起来可以加速训练 1.65 倍,减少内存使用,并显著提高 WikiText-103 上的困惑度,而不会添加任何参数。
Dec, 2020