使用查询选择器的长期序列预测 -- 高效稀疏注意力模型
本文介绍了一种名为 QDS-Transformer 的算法,它在 Transformer 自注意力机制的基础上,设计了稀疏的查询导向注意力机制,以在文档排序任务中实现本地化背景、分层表示和查询定向的邻近匹配,同时还具有稀疏性和计算效率。实验证明,QDS-Transformer 模型在全监督和少样本 TREC 排名基准中具有稳定和强大的优势。
Oct, 2020
基于 Dozer Attention 机制的 Dozerformer 框架在多元时间序列(MTS)预测任务中取得了出色的性能,该机制通过解决注意力机制中的两个关键限制,即二次时间复杂度和基于整个历史序列生成未来值的问题,来捕捉 MTS 数据的局部性、季节性和全局时间依赖性。
Dec, 2023
本文提出了一种基于 Transformer 的多元时间序列预测和自我监督表征学习的有效设计,它基于两个关键组件:时间序列划分为子序列级别的片段,这些片段作为输入标记传递给 Transformer;通道独立性,其中每个通道包含一个单变量时间序列,其在所有系列中共享相同的嵌入和 Transformer 权重。PatchTST 可以显著提高长期预测准确性,超越 SOTA Transformer-based models,并在自我监督预训练任务中实现出色的微调性能。
Nov, 2022
本文提出了一种名为 query and attend(QnA)的新型 shift-invariant local attention 层,将其并入分层视觉 transformer 模型,并证明其在速度和内存复杂度方面的改善,同时又能实现与最先进的模型相当的准确度。
Dec, 2021
本文提出聚类注意力机制以解决 transformers 模型在处理长序列时,注意力矩阵的求解复杂度很高的问题,同时在计算预定义聚类的质心时,能够处理自由形式的注意力机制。
Jul, 2020
通过研究一个玩具线性预测问题,我们发现变压器尽管具有高表达能力,但不能收敛于真实解,这是由于其注意力机制的低泛化能力。基于这一发现,我们提出了一种浅层轻量级变压器模型,在利用尖锐感知优化时能够成功逃离糟糕的局部最小值。我们通过实验证明这一结果在所有常用的多变量时间序列数据集上成立,并且 SAMformer 平均超过当前最先进模型 TSMixer 14.33%,同时参数数量仅为其四分之一。
Feb, 2024
提出了一种名为显式稀疏 Transformer 的新模型,其通过选择最相关的片段来改进全局上下文的注意力集中度,展示了在自然语言处理和计算机视觉任务方面的优越表现,并实现了与稀疏注意力方法可比或更好的结果,但显著减少了训练和测试时间。
Dec, 2019
我们介绍了一个新的架构,交叉注意力时间序列变换器(CATS),它通过消除自注意力并利用交叉注意力机制来重新思考传统 Transformer 框架,不仅提高长期预测精度,还减少参数和内存使用。大量对各种数据集进行的实验表明,我们的模型在最小均方误差和参数使用方面实现了卓越的性能。
May, 2024
通过引入 Surrogate Attention Blocks 和 Surrogate FFN Blocks,提出了一种新颖的针对长序列时间序列预测问题的 Transformer 模型的架构设计,以提高模型的效率而不牺牲准确性。在涵盖了九个基于 Transformer 的模型的五个时间序列任务的广泛实验中,观察到平均性能提高了 9.45%,同时模型的大小降低了 46%。
May, 2024