一种内存高效 Transformer 的分组自注意机制

ICLROct, 2022

一种内存高效 Transformer 的分组自注意机制

Grouped self-attention mechanism for a memory-efficient Transformer

Bumjun Jung, Yusuke Mukuta, Tatsuya Harada

TL;DR提出了两个新的模块，Grouped Self-Attention 和 Compressed Cross-Attention，可在小超参数限制下实现序列长度为 $l$ 的 $O (l)$ 的计算空间和时间复杂度，并且可以捕捉局部的同时考虑全局信息，实验表明，预测时间序列数据时，我们提出的模型展示了降低计算复杂度的高效性，且性能可与现有方法相当甚至更好。

Abstract

time-series data analysis is important because numerous real-world tasks such as forecasting weather, electricity consumption, and stock market involve predicting data that vary over time. →

time-series data forecasting long-range dependency grouped self-attention compressed cross-attention

发现论文，激发创造

CDSA: 跨维度自注意力用于多元、地理标记时间序列插补

本论文利用自我关注机制来处理多元、地理标记的时间序列数据中的缺失值，并通过跨维度自我关注 (CDSA) 的新方法，提出了一种具有低计算复杂度的序列建模算法，超越了现有的标准预测和补全方法。

May, 2019

探索基于注意力图复用的高效 Transformer 神经网络

本文研究了基于 Transformer 的自注意力（SA）提取序列特征方案，在注意力地图重用方面做了全面的研究，并证明了其在加速推理方面具有显著的优势。实验结果表明，注意力地图重用方法在 CPU 和 GPU 平台上可以减少推理延迟。

Jan, 2023

T-GSA：具有高斯加权自注意力机制的变形金刚网络用于语音增强

本文提出了一种高斯加权自注意力 Transformer 神经网络 (T-GSA)，通过自注意力机制的加权距离缩减，实现了显著的语音增强性能改进，在长程依赖任务中实现了并行化计算。

Oct, 2019

在时间序列预测中增强 Transformer 的局部性并打破内存瓶颈

本文提出使用 Transformer 解决时间序列预测问题，针对其点乘自注意力机制的局限性和内存瓶颈问题，先提出了卷积自注意力机制，再通过提出只有 O (L (logL)^2) 内存成本的 LogSparse Transformer 来解决内存瓶颈问题，实验结果表明在预算有限的情况下，其能显著提高对于时间序列的预测准确率。

Jun, 2019

变量时间序列变压器中的关联注意力

我们提出了一种新颖的相关注意力机制，能够高效地捕捉多元时间序列数据中不同特征之间的复杂相互关系，并能够与现有的基于 Transformer 的模型无缝集成，提高效率。在多种任务中，包括插补、异常检测和分类，相关注意力机制与先前的 Transformer 模型相结合，形成了更好的编码器架构，并且取得了先进的结果。

Nov, 2023

自注意力是否对时间序列预测有效？

我们介绍了一个新的架构，交叉注意力时间序列变换器（CATS），它通过消除自注意力并利用交叉注意力机制来重新思考传统 Transformer 框架，不仅提高长期预测精度，还减少参数和内存使用。大量对各种数据集进行的实验表明，我们的模型在最小均方误差和参数使用方面实现了卓越的性能。

May, 2024

RITA：基于组注意力机制的时间序列分析

使用一种称为 group attention 的注意力机制，结合最新的 Transformer 模型，提出了一种名为 RITA 的时间序列分析工具，采用动态的调度器来适应不同的训练过程，并在准确性和速度上显著胜过现有最先进方法。

Jun, 2023

图卷积丰富了 Transformer 中的自注意力

用基于图滤波的自注意力机制 (GFSA) 在 Transformer 模型中解决了过度平滑问题，提高了在计算机视觉、自然语言处理、图形模式分类、语音识别和代码分类等各领域的性能。

Dec, 2023

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

时间序列分类中注意力机制的反思

本文提出了一种灵活的多头线性注意力（FMLA）方法，通过与可变形卷积块和在线知识蒸馏进行分层交互来提高局部感知能力。此外，我们还提出了一种简单但有效的掩码机制，以减少时间序列中的噪声影响并降低 FMLA 的冗余。通过多次以随机掩码层转发样本并聚合其输出来稳定此机制，并将其与 11 种已知算法进行比较，结果表明我们的算法在 top-1 准确性方面具有可比性，并以浮点运算每秒和参数数量方面将其与三种基于 Transformer 的模型进行比较，发现我们的算法在更低的复杂度下实现了更好的效率。

Jul, 2022