基于元素的注意力层：一种优化选项

Feb, 2023

基于元素的注意力层：一种优化选项

Element-Wise Attention Layers: an option for optimization

Giovanni Araujo Bacochina, Rodrigo Clemente Thom de Souza

TL;DR本文提出了一种新的注意力机制，并通过将 Dot-Product Attention 中的矩阵乘法转换成数组乘法来实现元素级别的注意力，从而在保持实验精度的同时减少了网络的参数量。在 Fashion MNIST 和 CIFAR10 数据集上的分类实验中，该方法的结果表明，相对于 VGG 类似结构，神经网络降低了 97% 的参数量，但在 Fashion MNIST 数据集上的分类准确率达到了 92%，而在 CIFAR10 数据集上的分类准确率仍相当于 VGG-like 架构的 60%。

Abstract

The use of attention layers has become a trend since the popularization of the transformer-based models, being the key element for many state-of-the-art models that have been developed through recent years. Howev

发现论文，激发创造

A$^3$:神经网络中的加速注意力机制近似方法

本研究提出了 A3 机制，利用算法逼近和硬件专业化实现对于神经网络中注意力机制的加速，以达到多个数量级的能效提升和大幅度加速传统硬件的效果。

Feb, 2020

动力学视角下的分层共享注意力网络

提出一种名为DIA 的注意力网络单元，该单元在不同的神经网络层之间共享单个注意力模块，从而在各种视觉任务中提高了现有自我注意力模块的准确性，并且具有强大的正则化能力，能够通过增强层间信息交流和梯度值有效地恢复和提高其训练不稳定性。

Oct, 2022

基于异质注意力模式的视觉Transformer加速

基于观察到的异构注意力模式，在Vision Transformers中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有SOTA方法。

Oct, 2023

Transformer神经网络架构中注意力机制的缩放点积的替代方法

通过除以键值长度之和而非平方根，我们提出了一种替代方法来缩放点积，以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示，这种方法在许多情况下更有效。

Nov, 2023

深度神经网络中小物体编码的增强：引入Fast&Focused-Net与卷积点积层

本文介绍了快速集中网络（Fast&Focused-Net），它是一种为将小目标高效编码为固定长度特征向量而设计的新型深度神经网络架构。通过引入Volume-wise Dot Product（VDP）层，Fast&Focused-Net解决了传统的卷积神经网络（CNN）中存在的一些局限性，并通过大量实验证据证明了其在小目标分类和文本识别任务中的优越性能。

Jan, 2024

NiNformer：一种带有令牌混合生成门控函数的网络中网络Transformer

该论文介绍了一种用于减少计算负担的新的计算模块，通过替换标准的注意力层为具有动态学习元素级门控函数的网络结构，增强了MLP Mixer的静态方法，从而在图像分类任务中比基准架构表现更好。

Mar, 2024

Conv-Basis：Transformer中高效注意力推理与梯度计算的新范式

大型语言模型对世界产生了深远影响，其中自注意机制是transformer在大型语言模型中取得成功的关键。然而，长度为n的输入序列带来的二次计算复杂度O(n^2)一直是对提高和扩展更长上下文的一个难以克服的障碍。本文利用注意力矩阵的卷积结构开发了一种有效的注意力计算近似方法，提出了一个类似秩基系统的卷积基系统，表明任意下三角（注意力）矩阵总是可以在该基系统中分解为k个结构化卷积矩阵的和。我们然后设计了一个算法，快速将注意力矩阵分解为k个卷积矩阵。借助快速傅里叶变换（FFT），可以在O(knd log n)的时间内计算注意力推理，其中d是隐藏维度。实际上，我们有d ≪ n，即d = 3,072和n = 1,000,000用于Gemma。因此，当kd = n^{o(1)}时，我们的算法实现了几乎线性时间，即n^{1+o(1)}。此外，注意力的训练前向和反向梯度也可以在n^{1+o(1)}内计算。我们的方法可以避免明确计算n×n的注意力矩阵，这可能会大大减轻二次计算复杂度。此外，我们的算法适用于任何输入矩阵。本研究提供了一种加速transformer注意力计算的新范式，以实现其对更长上下文的应用。

May, 2024

对称点积注意力用于BERT语言模型的高效训练

提出了一种与Transformer架构的自注意力机制兼容的替代性兼容函数，并在类似BERT模型的预训练中实现了对称的注意力机制，在GLUE基准测试中得分79.36，减少了可训练参数数量的6％，并将收敛前所需的训练步骤减少了一半。

Jun, 2024

突破注意力瓶颈

通过开发一种生成函数来解决基于关注机制的注意力变量效率低的问题，该方法在处理变长输入序列和建模长程依赖方面具有更小的模型和更小的损失。

Jun, 2024

Transformer和神经网络的原始-对偶框架

自注意力机制是transformers在序列建模任务中取得卓越成功的关键，本研究提出了一种基于支持向量回归问题的自注意力构建方法，推导出常用的注意力层，并提出了两种新型注意力机制：1)批正则注意力，2)缩放头注意力，通过实证研究证明这两种注意力机制在提高模型准确性和效率方面的优势。

Jun, 2024