激活器:GLU 激活作为视觉转换器的核心功能
我们提出了一种新颖的变压器变体,在注意力块中集成了非线性处理,以解决在图像分类任务中并行运行 MLP 和注意力块导致性能下降的问题。我们的实验结果表明,基于 GLU 的激活函数超过了当前的 Vision Transformers 在 ImageNet-1K 数据集上的 S / 16 变体,同时使用更少的参数,且超过了 B / 16 变体使用仅一半的参数。此外,我们还展示了使用 GELU 激活函数变体来验证我们的断言。最后,我们证明了 MABViT 变体在深度变压器中的潜力超过了标准结构。
Dec, 2023
本文提出了一种基于 MLP 的简单网络架构 gMLP,与 Transformer 一样,在关键的自然语言处理和计算机视觉应用中表现不亚于 Transformer。同时,作者进行比较表明,自注意力(self-attention)不是视觉 Transformer 的关键,因为 gMLP 可以实现相同的准确性。}
May, 2021
本研究测试了变化的 GLU,其中用不同的非线性(或线性)函数代替 sigmoid,发现其中一些在 Transformer 的前馈子层中使用比通常使用的 ReLU 或 GELU 激活函数有质量改进。
Feb, 2020
证明了一个 MLP 神经元可以通过具有内部维度 1 的带有掩码注意力头来实现,只要 MLP 的激活函数来自包括 SiLU 以及接近 ReLU 和 GeLU 的受限类。同时证明了注意力头可以分别执行 MLP 的组成部分(线性变换和激活函数),并且可以在其权重矩阵中编码任意的掩码模式,误差可以任意小。
Sep, 2023
提出了一种混合量子 - 经典视觉转换器架构,其特点是在注意机制和多层感知机中集成了变分量子电路。该研究解决了计算效率和资源限制在分析未来的高亮度大型强子对撞机数据方面的重要挑战,提出了该架构作为潜在解决方案。通过将该模型应用于 CMS 开放数据的多探测器喷注图像,我们评估了该方法的性能,旨在区分强子引发的喷注和胶子引发的喷注。我们成功训练了量子模型,并通过数值模拟对其进行了评估。使用这种方法,在考虑类似数量的参数的情况下,我们实现了与完全经典架构几乎相媲美的分类性能。
May, 2024
通过引入数据依赖的门控机制,我们开发了一种硬件高效的并行形式,使得门控线性注意力(GLA)Transformers 在适度规模的语言建模中表现竞争力,并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。
Dec, 2023
提出一种效率更高的视觉 Transformer 模型,命名为 Glance-and-Gaze Transformer (GG-Transformer),其通过两个并行的分支 ——Glance 和 Gaze,分别实现自适应扩张分区的自注意力机制与简单深度卷积层的局部图像上下文补偿,从而实现长距离依赖性和局部区域信息的高效建模,在多个视觉任务和基准测试中都表现出了优秀的性能。
Jun, 2021
通过局部模块来提高图像转换器的视觉表示能力,建立搜索空间和搜索算法体系,提出分层神经架构搜索方法并证明其在 ImageNet 数据集上对于图像分类比 ResNet 和 ViT 机型更优。
Jul, 2021
本文提出了多种改进的 TabTransformer 模型,其中包含注意力机制和多种激活函数以及线性投影,针对三个数据集的二分类任务取得了超过 1% 的 AUROC 收益。此外,我们还评估了训练过程中特定超参数的重要性。
Jan, 2022
本文介绍了一种名为 Brainformer 的复合深度神经网络模型,其中包括稀疏门控前馈层、紧密前馈层、自注意层以及不同形式的层规范化和激活函数。 Brainformer 模型表现优异且更为高效,比当前最先进的密集和稀疏的 Transformers 模型快 5 倍。在下游任务评估中,Brainformer 模型与 GLaM 模型相比,细调后 SuperGLUE 得分高出 3%。
May, 2023