使用结构化矩阵增强的 X 转换器进行长序列时间序列预测
为了解决 Transformer 在长序列时间序列预测中的问题,我们设计了一种高效的基于 Transformer 的模型 Informer,其具有 ProbSparse 自注意机制和生成式解码器等特点,在四个大规模数据集上显著优于现有方法。
Dec, 2020
本论文讨论了长期时间序列预测 (LTTF) 中的 Transformer 模型,提出了一种有效的基于 Transformer 的模型 Conformer,采用编码器 - 解码器架构和正则化流派生的模块进一步提高信息利用率,并显式地建模时间序列数据中的互系列相关性和时间动态以加强下游自我关注机制,实验表明 Conformer 模型在 LTTF 中优于现有的方法,并可生成可靠的预测结果与不确定性量化。
Jan, 2023
通过简单的线性模型实验发现在长期时间序列预测任务中,线性模型 LTSF-Linear 的效果优于复杂的基于 Transformer 方法,这引发人们对该任务以及其他时间序列分析任务中基于 Transformer 方法的有效性的反思。
May, 2022
本研究提出了 LSG attention 机制以解决 Transformer 模型自注意力机制中违反 $O (n^2)$ 的限制,同时还提出了相应工具和方法用于新模型的训练和现有模型的调整。实验结果表明,LSG attention 机制在长文本的分类和摘要任务中效率优秀,也可以用于有效地扩展预训练模型的序列长度。
Oct, 2022
本文提出了一种轻量级的 Periodformer 模型,采用 Period-Attention 机制和内置的近似性,同时嵌入门机制控制注意模块对预测结果的影响,并使用基于贝叶斯优化的多 GPU 异步并行算法加快了超参数优化,结果表明该模型在多元和单元预测方面的预测误差分别减少了 13% 和 26%,同时缩短了 46% 的搜索时间。
Jun, 2023
我们介绍了一个新的架构,交叉注意力时间序列变换器(CATS),它通过消除自注意力并利用交叉注意力机制来重新思考传统 Transformer 框架,不仅提高长期预测精度,还减少参数和内存使用。大量对各种数据集进行的实验表明,我们的模型在最小均方误差和参数使用方面实现了卓越的性能。
May, 2024
提出了一种名为 “长短变压器” 的模型,其中使用自注意力机制处理长文本和高分辨率图像,同时引入了一种新型的远距离关注和短期关注机制,并采用双重归一化策略来处理两种注意力机制之间的规模差异。通过在多个语言和视觉任务中的表现,该方法优于现有的方法。
Jul, 2021
通过研究一个玩具线性预测问题,我们发现变压器尽管具有高表达能力,但不能收敛于真实解,这是由于其注意力机制的低泛化能力。基于这一发现,我们提出了一种浅层轻量级变压器模型,在利用尖锐感知优化时能够成功逃离糟糕的局部最小值。我们通过实验证明这一结果在所有常用的多变量时间序列数据集上成立,并且 SAMformer 平均超过当前最先进模型 TSMixer 14.33%,同时参数数量仅为其四分之一。
Feb, 2024
通过加速自注意机制在推断时的方法,我们成功加速了各种长序列转换器,并在各个基准测试中展示了 2.73 倍 - 7.63 倍的速度提升,同时保留了 98.6%-99.6% 的原始预训练模型的准确性。
May, 2024
这篇论文提出了一种新颖高效的分布式训练方法,使用长短序列变压器(LSS Transformer)来训练长序列的变压器,将长序列分布到多个 GPU 上进行计算,并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比,在 Wikipedia enwik8 数据集上,我们的方法在 144 个 Nvidia V100 GPU 上实现了 5.6 倍的加速和 10.2 倍的内存效率,且在 3,456 个 GPU 上可扩展到长度达到 50,112 的极限序列,实现了 161% 的超线性并行效率和 32 petaflops 的吞吐量。
Nov, 2023