WISE: 提高 Transformer 长序列学习能力的小波变换

Oct, 2022

WISE: 提高 Transformer 长序列学习能力的小波变换

WISE: Wavelet Transformation for Boosting Transformers' Long Sequence Learning Ability

Yufan Zhuang, Zihan Wang, Fangbo Tao, Jingbo Shang

TL;DR本文即系统地研究了小波变换和 Transformer 之间的协同作用，提出了 WISE 范式，通过应用前向小波变换、在小波系数空间中进行非线性变换、通过反向小波变换在输入空间中重构表示的方法，用固定或自适应小波在小波空间中学习注意力可以一致地改善 Transformer 的性能，并且明显优于基于傅里叶变换的方法。

Abstract

transformer and its variants are fundamental neural architectures in deep learning. Recent works show that learning attention in the Fourier space can improve the long sequence learning capability of Transformers

transformer wavelet transform long sequence learning wise performance

发现论文，激发创造

傅里叶变换器：通过 FFT 算子消除序列冗余进行快速长距建模

本文提出了 Fourier Transformer，该方法通过使用现成的快速傅里叶变换（FFT）算子来执行离散余弦变换（DCT）来逐步消除隐藏序列中的冗余信息以大大减少计算成本，同时保留了从各种大型预训练模型中继承权重的能力。结果表明，该模型在长距离建模基准 LRA 上实现了所有基于 Transformer 的模型中的最佳性能，在速度和空间方面均有显着改进。对于包括 CNN/DailyMail 和 ELI5 在内的生成 Seq-to-Seq 任务，通过继承 BART 权重，我们的模型优于标准 BART 和其他高效模型。

May, 2023

用于高效视觉分类的 Spikformer 中傅立叶或小波基作为对应的自注意力

使用峰值傅立叶变换、小波变换及其组合替代传统的自注意力机制，提出了基于峰值或小波的 spikformer（FWformer），在视觉分类任务中验证并表明其能够达到可比甚至更高的准确性（0.4%-1.5%），更快的运行速度（训练速度提高 9%-51%，推理速度提高 19%-70%），降低的理论能耗（降低 20%-25%），以及降低的 GPU 内存使用（降低 4%-26%），相比于标准的 spikformer。结果显示，基于生物发现（峰值形式）或信息理论（傅立叶或小波变换）的新 Transformer 的持续改进是值得期待的。

Mar, 2024

WFTNet：利用全局和局部周期性进行长期时间序列预测

本文提出了一种基于波尔均匀转换网络 (WFTNet) 的长期时间序列预测方法，WFTNet 利用了傅里叶和小波变换来提取信号中综合的时间频率信息，其中傅里叶变换捕捉全局周期模式，小波变换捕捉局部模式，此外还引入了一个周期性加权系数 (PWC) 来自适应地平衡全局和局部频率模式的重要性，丰富的时间序列数据集上的实验结果表明，WFTNet 始终优于其他最先进的基线模型。

Sep, 2023

基于小波的高频增强在 Transformers 中解锁细粒度细节

本文介绍一种针对医学图像的局部特征缺失问题的方法，通过重新设计自注意力映射，利用小波变换对输入特征图进行分解，使用高频和低频子带表示粗粒度和细粒度特征，重构自注意力操作并加入高频部分的高斯金字塔，引入多尺度上下文增强块，实现医学图像的准确分割，并经过广泛实验证明了该方法的有效性。

Aug, 2023

利用敏锐感知最小化和通道关注解锁 Transformers 在时间序列预测中的潜力

通过研究一个玩具线性预测问题，我们发现变压器尽管具有高表达能力，但不能收敛于真实解，这是由于其注意力机制的低泛化能力。基于这一发现，我们提出了一种浅层轻量级变压器模型，在利用尖锐感知优化时能够成功逃离糟糕的局部最小值。我们通过实验证明这一结果在所有常用的多变量时间序列数据集上成立，并且 SAMformer 平均超过当前最先进模型 TSMixer 14.33%，同时参数数量仅为其四分之一。

Feb, 2024

利用无降采样小波包特征和 Transformer 模型进行时间序列预测

该研究综合了小波分析技术与机器学习方法，针对单变量时间序列预测提出了三个主要贡献：考虑使用带有不同消失矩的 Daubechies 小波作为非时态和时态预测方法的输入特征；比较非分解小波变换和非分解小波包变换在计算这些特征时的使用情况；在更广泛的预测方法上评估这些小波特征的应用，包括时态和非时态模型以及统计学和基于深度学习的方法，结果表明在一步向前预测的所有非时态方法中，用小波特征替换高阶滞后特征具有显著的益处，在长期预测的时态深度学习模型中，将小波特征用作输入则存在一定的效益。

Mar, 2024

通过小波损失训练变压器模型提高单幅图像超分辨率的定量和视觉效果

这篇论文通过引入卷积非局部稀疏注意力块（NLSA）来扩展混合变压器架构，以进一步增强其感受野，并使用小波损失来训练变压器模型以改善定量和主观性能。实验结果表明，提出的模型在各种基准数据集上提供了最先进的峰值信噪比结果以及更好的视觉表现。

Apr, 2024

Wave-ViT：融合小波和 Transformer 的视觉表示学习

本研究通过构建 Wavelet Vision Transformer 来处理多尺度视觉问题，使用小波变换实现可逆下采样，同时结合局部上下文信息提高自注意力计算结果，结果表明其在图像识别等多种任务上表现优异。

Jul, 2022

Transformer 与大脑皮层波：跨时间上下文编码器

将完整的输入序列转换为长的 “编码向量”，通过计算输入序列中单词对之间的关联，增强转换器中的时间上下文，而类似的编码原则可以通过神经活动在大脑皮层区域内或整个大脑尺度上传播的波动实现。

Jan, 2024

时间序列价值 64 词：使用 Transformer 进行长期预测

本文提出了一种基于 Transformer 的多元时间序列预测和自我监督表征学习的有效设计，它基于两个关键组件：时间序列划分为子序列级别的片段，这些片段作为输入标记传递给 Transformer；通道独立性，其中每个通道包含一个单变量时间序列，其在所有系列中共享相同的嵌入和 Transformer 权重。PatchTST 可以显著提高长期预测准确性，超越 SOTA Transformer-based models，并在自我监督预训练任务中实现出色的微调性能。

Nov, 2022