稀疏二进制变换器用于多元时间序列建模

KDDAug, 2023

稀疏二进制变换器用于多元时间序列建模

Sparse Binary Transformers for Multivariate Time Series Modeling

Matt Gorbett, Hossein Shirazi, Indrakshi Ray

TL;DR通过应用稀疏和二元权重变换器在多变量时间序列问题上，我们表明轻量级模型能够获得与相同结构的稠密浮点变换器相当的准确性。我们的模型在分类、异常检测和单步预测三个时间序列学习任务上取得了良好的结果，并应用了两种修改以减少注意力机制的计算复杂度，从而大大减少变换器中非零操作的数量。我们在参数数量、存储大小和浮点运算量（FLOPs）等多个度量标准上测量了我们的方法的计算节约，并展示了高达 53 倍的存储大小减少和高达 10.5 倍的 FLOPs 减少。

Abstract

compressed neural networks have the potential to enable deep learning across new applications and smaller computational environments. However, understanding the range of learning tasks in which such models can succeed is not well studied. In this work, we apply →

compressed neural networks sparse and binary-weighted transformers multivariate time series attention mechanism computational savings

发现论文，激发创造

利用稀疏变换器生成长序列

本文介绍了一种称为 Sparse Transformers 的神经网络架构，该架构通过稀疏的注意力矩阵因式分解和其他一些技术，可以更有效地处理长序列等任务，并在 Enwik8，CIFAR-10，和 ImageNet-64 等基准数据集上创造出新的最优表现。

Apr, 2019

利用敏锐感知最小化和通道关注解锁 Transformers 在时间序列预测中的潜力

通过研究一个玩具线性预测问题，我们发现变压器尽管具有高表达能力，但不能收敛于真实解，这是由于其注意力机制的低泛化能力。基于这一发现，我们提出了一种浅层轻量级变压器模型，在利用尖锐感知优化时能够成功逃离糟糕的局部最小值。我们通过实验证明这一结果在所有常用的多变量时间序列数据集上成立，并且 SAMformer 平均超过当前最先进模型 TSMixer 14.33%，同时参数数量仅为其四分之一。

Feb, 2024

压缩基于 Transformer 的自监督模型用于语音处理

本文旨在探讨通过多种压缩技术（如剪枝和知识蒸馏）来减小基于 Transformer 的自监督模型的计算复杂度，以适应不同设备的应用场景，并通过比较参数数量、操作数和时间等指标，综合分析这些技术的优劣。

Nov, 2022

Combiner: 具有稀疏计算成本的全关注力变换器

提出了一种名为 Combiner 的替代 transformers 中的 attention layers 的方法，其通过利用结构化分解的条件分布来近似自我关注机制，实现了每个关注头的完全关注能力，同时保持低计算和内存复杂性。在自回归和双向序列任务上的实验评估表明，该方法有效性高，可以产生多个图像和文本建模任务的最新技术结果。

Jul, 2021

使用低比特 NxM 稀疏压缩预训练 Transformers 以增强自然语言理解

本文提出了新的框架 NxMiFormer，同时使用 ADMM 和 STE-based QAT 进行稀疏化和量化，通过搜索算法找到最优的异构压缩配置，使预处理 Transformer 网络在 NLU 测试中达到 93% 的压缩率并保持 98% 以上的准确性。

Jun, 2022

缩放 Transformers 中的稀疏已足够

本研究提出了一种用于构建下一代 Transformer 模型的方法，即利用稀疏层进行有效缩放和高效执行非批量解码。结果表明，这种模型在拥有相同参数数量的情况下，可以获得与标准 Transformer 相同的效果，并且在长文本摘要方面表现优异。

Nov, 2021

通过稀疏率减少实现的白盒变压器：压缩无外乎此

我们认为表示学习的自然目标是将数据的分布压缩和转换为支持在不相关子空间上的低维高斯混合模型。我们通过基于名为稀疏率减少的原则性度量评估这种表示的好坏，该度量同时最大化所学表示的内在信息增益和外在稀疏性。从这个角度来看，包括变压器在内的流行深度网络结构可以看作是实现此度量优化的迭代方案。特别地，我们从这个目标的部分交替优化中推导出一个变压器块：多头自注意算子通过在特征的编码率上实施近似梯度下降步骤来压缩表示，随后的多层感知机稀疏特征。这导致了一系列名为 CRATE 的白盒变压器式深度网络结构，其在数学上是完全可解释的。我们通过去噪和压缩之间的新连接表明，前述压缩编码的逆可以由同一类 CRATE 架构实现。因此，这些衍生的白盒架构对编码器和解码器都是通用的。实验证明，尽管简单，但这些网络确实学习到了大规模实际图像和文本数据集的压缩和稀疏表示，并实现了与高度工程化的基于变压器的模型（ViT，MAE，DINO，BERT 和 GPT2）非常接近的性能。我们相信所提出的计算框架在统一的数据压缩视角下展示了深度学习理论和实践之间的巨大潜力。代码可以在此链接获得: https:// 此 URL。

Nov, 2023

注意力作为稳健的时间序列预测表示

我们的研究表明，利用全局标记和局部窗口构建的注意力图作为数据点的稳健核表示，可以提高时间序列的预测准确性，并且在不改变核心神经网络结构的情况下，我们的方法胜过了最先进的模型，将多变量时间序列预测的均方误差 (MSE) 降低了显著的 3.6%。它是一个通用的组件，可以轻松替代最近的基于分块的嵌入方案，提升基于 transformer 模型的性能。

Feb, 2024

Transformer 中 Attention 值的分布、稀疏性和推断时量化

研究了 transformer 的注意机制需要多少信息在应用（推理）时真正需要，并且针对不需要训练的优化进行了系统研究，提出了基于剪枝和对数尺度映射的推理时间量化技术，发现 80％的注意值可以剪枝为零，而精度只有不到 1.0％的相对损失，使用这种剪枝技术，结合对注意值进行量化到仅 3 位格式，不需要重新训练，在细调过的 RoBERTa 下只会导致 0.8％的精度损失。

Jun, 2021

Transformer 多变量预测：多多益善？

本研究提出了一种使用 PCA 增强的新型 Transformer 预测框架，以降低冗余信息、提高预测准确性并优化运行时间效率。通过与其他五个先进模型和四个真实世界数据集的评估结果显示，该框架能够在所有模型和数据集上最小化预测误差，并显著降低运行时间。其中 PCA+Crossformer 模型平均减少均方误差（MSE）33.3% 并缩短运行时间 49.2%。在电力数据集上，该框架降低 MSE 14.3% 和运行时间 76.6%；在交通数据集上，降低 MSE 4.8% 和运行时间 86.9%。本研究旨在推进各种先进模型，增强基于 Transformer 的时间序列预测能力，以适用于复杂数据。

Dec, 2023