使用查询选择器的长期序列预测 -- 高效稀疏注意力模型

Jul, 2021

使用查询选择器的长期序列预测 -- 高效稀疏注意力模型

Long-term series forecasting with Query Selector -- efficient model of sparse attention

Jacek Klimek, Jakub Klimek, Witold Kraskiewicz, Mateusz Topolewski

TL;DR本文中提出的 Query Selector 是一种高效、确定性的稀疏注意力矩阵算法，经实验证明它在 ETT、Helpdesk 和 BPI'12 数据集上取得了最先进的结果。

Abstract

Various modifications of transformer were recently used to solve time-series forecasting problem. We propose query selector - an efficient, deterministic algorithm for →

transformer time-series forecasting query selector sparse attention matrix state-of-the-art results

发现论文，激发创造

基于查询导向的稀疏 Transformer 的长文档排名

本文介绍了一种名为 QDS-Transformer 的算法，它在 Transformer 自注意力机制的基础上，设计了稀疏的查询导向注意力机制，以在文档排序任务中实现本地化背景、分层表示和查询定向的邻近匹配，同时还具有稀疏性和计算效率。实验证明，QDS-Transformer 模型在全监督和少样本 TREC 排名基准中具有稳定和强大的优势。

Oct, 2020

Dozerformer: 序列自适应稀疏 Transformer 用于多变量时间序列预测

基于 Dozer Attention 机制的 Dozerformer 框架在多元时间序列（MTS）预测任务中取得了出色的性能，该机制通过解决注意力机制中的两个关键限制，即二次时间复杂度和基于整个历史序列生成未来值的问题，来捕捉 MTS 数据的局部性、季节性和全局时间依赖性。

Dec, 2023

快速视觉感知的动态查询选择

本文探讨了如何在限制精度降低的同时，通过减少推理情况下的查询数量 Q，进一步提高 Perceivers 的效率，以解决网络复杂度和推理时间的问题。

May, 2022

时间序列价值 64 词：使用 Transformer 进行长期预测

本文提出了一种基于 Transformer 的多元时间序列预测和自我监督表征学习的有效设计，它基于两个关键组件：时间序列划分为子序列级别的片段，这些片段作为输入标记传递给 Transformer；通道独立性，其中每个通道包含一个单变量时间序列，其在所有系列中共享相同的嵌入和 Transformer 权重。PatchTST 可以显著提高长期预测准确性，超越 SOTA Transformer-based models，并在自我监督预训练任务中实现出色的微调性能。

Nov, 2022

用于高效本地注意力的学习查询

本文提出了一种名为 query and attend（QnA）的新型 shift-invariant local attention 层，将其并入分层视觉 transformer 模型，并证明其在速度和内存复杂度方面的改善，同时又能实现与最先进的模型相当的准确度。

Dec, 2021

聚类注意力实现快速 Transformer

本文提出聚类注意力机制以解决 transformers 模型在处理长序列时，注意力矩阵的求解复杂度很高的问题，同时在计算预定义聚类的质心时，能够处理自由形式的注意力机制。

Jul, 2020

利用敏锐感知最小化和通道关注解锁 Transformers 在时间序列预测中的潜力

通过研究一个玩具线性预测问题，我们发现变压器尽管具有高表达能力，但不能收敛于真实解，这是由于其注意力机制的低泛化能力。基于这一发现，我们提出了一种浅层轻量级变压器模型，在利用尖锐感知优化时能够成功逃离糟糕的局部最小值。我们通过实验证明这一结果在所有常用的多变量时间序列数据集上成立，并且 SAMformer 平均超过当前最先进模型 TSMixer 14.33%，同时参数数量仅为其四分之一。

Feb, 2024

Explicit Sparse Transformer: 明确稀疏转换器 —— 通过明确选择实现集中注意力

提出了一种名为显式稀疏 Transformer 的新模型，其通过选择最相关的片段来改进全局上下文的注意力集中度，展示了在自然语言处理和计算机视觉任务方面的优越表现，并实现了与稀疏注意力方法可比或更好的结果，但显著减少了训练和测试时间。

Dec, 2019

自注意力是否对时间序列预测有效？

我们介绍了一个新的架构，交叉注意力时间序列变换器（CATS），它通过消除自注意力并利用交叉注意力机制来重新思考传统 Transformer 框架，不仅提高长期预测精度，还减少参数和内存使用。大量对各种数据集进行的实验表明，我们的模型在最小均方误差和参数使用方面实现了卓越的性能。

May, 2024

使用结构化矩阵增强的 X 转换器进行长序列时间序列预测

通过引入 Surrogate Attention Blocks 和 Surrogate FFN Blocks，提出了一种新颖的针对长序列时间序列预测问题的 Transformer 模型的架构设计，以提高模型的效率而不牺牲准确性。在涵盖了九个基于 Transformer 的模型的五个时间序列任务的广泛实验中，观察到平均性能提高了 9.45％，同时模型的大小降低了 46％。

May, 2024