Transformer 模型中的关键要素:并非所有的注意力都是必要的
通过对非必要的 attention layers 进行选择性去除,本文提出了一种简化视觉 transformer 并减少计算负载的新策略,通过熵的考虑,将不具信息量的 attention layers 整合到相应的 MLP 中,实现仅在某些 transformer blocks 中使用 MLP,实验结果显示该方法可以提高 DeiT-B 的吞吐量和内存限制,并在不影响性能的情况下去除 40% 的 attention layer。
Apr, 2024
我们提出了一种名为 BlockPruner 的新型无需训练的结构化修剪方法,通过定位多头注意力和多层感知机块中的冗余实现更精细的修剪,实验证明,与现有方法相比,BlockPruner 在各种下游任务中实现了更精确和有效的修剪。
Jun, 2024
证明了一个 MLP 神经元可以通过具有内部维度 1 的带有掩码注意力头来实现,只要 MLP 的激活函数来自包括 SiLU 以及接近 ReLU 和 GeLU 的受限类。同时证明了注意力头可以分别执行 MLP 的组成部分(线性变换和激活函数),并且可以在其权重矩阵中编码任意的掩码模式,误差可以任意小。
Sep, 2023
该论文提出了一种协作式多头注意力层,该方法通过共享 key/query 投影来降低注意力层中参数的数量,可以用于任何变压器体系结构,并对语言理解、机器翻译和计算机视觉方面进行了验证和实验,并可将预训练的多头注意力层重新参数化为协同注意力层,使 key 和 query 投影的大小减小了 4 倍,而准确性和速度保持不变。
Jun, 2020
本研究通过分析注意力层及其所在的变形器模型的表示能力,探讨这些模型相对于其他架构的优势和劣势,并重点关注了它们的内在复杂度参数,例如宽度、深度和嵌入维度。在正面方面,我们提出了一个稀疏平均任务,并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长,而变形器的复杂性仅随着输入规模的对数增长;此外,我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面,我们提出了一个三元组检测任务,其中注意力层的复杂性随输入规模线性增长;考虑到这种情况在实践中似乎很少出现,我们还提出了一些自然变种,可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值,以及稀疏平均作为原型注意任务的作用,甚至在三元组检测的分析中也有用处。
Jun, 2023
我们分析了大型语言模型(LLMs)如何表示上下文之外的单词,研究它们依赖所给上下文来捕捉其语义的情况。我们的文本扰动指导了似然性,揭示了变形器模型中令牌似然性和注意力值之间的相关性。广泛的实验表明,意外的令牌会导致模型不太关注来自自身的信息以计算它们的表示,特别是在较高的层次上。这些发现对于评估 LLMs 在真实世界场景中的鲁棒性具有重要的影响。
Mar, 2023
本研究提出了一种混合压缩模型 LoRAP,通过输入激活加权奇异值分解方法和基于低秩度差异的参数分配方案,增强了 Transformer 模型中 Multi-Head Self-Attention 子层的低秩特性,并提出了无梯度的结构化通道剪枝方法用于 Feed-Forward Network 子层,实验证明我们的提议在多重压缩比下优于之前的结构化压缩方法。
Apr, 2024
本文提出了一种基于 MLP 的简单网络架构 gMLP,与 Transformer 一样,在关键的自然语言处理和计算机视觉应用中表现不亚于 Transformer。同时,作者进行比较表明,自注意力(self-attention)不是视觉 Transformer 的关键,因为 gMLP 可以实现相同的准确性。}
May, 2021
本研究提出了一种新的方法来理解自我注意网络:我们展示了它们的输出可以分解为若干关注头跨层序列的操作所涉及的小项相加,通过这种分解,我们证明了自我注意具有强烈的归纳偏差,具体表现为 “令牌均匀性”;实验证明,不同变体的标准转换器体系结构存在收敛现象。
Mar, 2021
基于大脑侧化的灵感,我们提出了一种简单而有效的架构 L-MLP,它基于多层感知器并在处理数据维度时进行排列、并行处理和合并,通过连接的 MLP 传递。我们发现这种设计优于其他 MLP 变体,在挑战性的扩散任务中与基于 Transformer 的架构相媲美,同时具有高效性。使用文本到图像生成任务进行实验,证明了 L-MLP 的有效性和高效性。
May, 2024