LOCOST: 面向长文档提要生成的状态空间模型
本研究提出使用 local self-attention 和 explicit content selection 两种方法来应对长篇文档摘要中的长跨度依赖,并利用大型预训练变压器模型在 Spotify Podcast、arXiv 和 PubMed 等标准数据集上进行实验,证明两种方法的组合可以在 3 个任务中实现 ROUGE 得分的最优结果。此外,与现有算法相比,在没有大规模 GPU 计算机卡的情况下,本研究的方法也可以实现相当或更好的结果。
May, 2021
ConvSSMs combine ConvLSTM and state space methods to efficiently model long spatiotemporal sequences, outperforming Transformers and ConvLSTM in terms of training speed and sample generation while matching or exceeding state-of-the-art methods on various benchmarks.
Oct, 2023
本研究提出了 LSG attention 机制以解决 Transformer 模型自注意力机制中违反 $O (n^2)$ 的限制,同时还提出了相应工具和方法用于新模型的训练和现有模型的调整。实验结果表明,LSG attention 机制在长文本的分类和摘要任务中效率优秀,也可以用于有效地扩展预训练模型的序列长度。
Oct, 2022
本文提出了 Hepos,一种新颖的有效的编码器 - 解码器关注机制,结合 Hepos,我们能够处理比使用全注意力的现有模型多 10 倍的令牌,有别于现有的高斯自注意机制。同时,我们还展示了新的包含非常长的文档和总结的数据集 GovReport,并且试验结果表明,我们的模型产生的 ROUGE 得分明显高于竞争对手比较,包括 PubMed 上的最新最先进的结果,人类评估也表明,我们的模型产生更多有用信息的总结。
Apr, 2021
提出了一种结构化状态空间序列模型(S4),它在处理长依赖序列数据方面与传统模型相比有着更好的结果,通过调整状态矩阵可以将模型计算复杂度降低,达到了 SOTA 水平。
Oct, 2021
本论文提出了一种轻量级掩膜生成器的技术,采用长短掩膜对 S4 模型进行改进,从而更有效、准确地模拟视频中的长期时空依赖关系,并在三个数据集上均取得了比之前最先进的 S4 模型更高的准确性,降低了 23%的内存占用。
Mar, 2023
提出了一种结合自我关注和 S4 层优点的高效长范围视频模型,具有复杂的长范围时空依赖性,比传统的全自注意模型快 2.63 倍,占用 8 倍更少的 GPU 内存,并在视频分类等任务中取得了最先进的结果。
Apr, 2022
对基于循环模型的顺序数据处理的最新方法进行了深入总结,并提供了关于体系结构和算法解决方案的完整分类,引导研究者在这一吸引人的研究领域进行进一步研究。
Jun, 2024
序列建模是跨多个领域的一个关键领域,包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上,循环神经网络(RNNs)和长短时记忆网络(LSTMs)在机器翻译、命名实体识别等序列建模任务中占主导地位,但转换器的进步改变了这一范式,因为其性能更优越。然而,转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题,其中使用频谱网络或卷积在一些任务上表现良好,但仍然难以处理长序列。状态空间模型(SSMs)已经成为此背景下序列建模范式的有希望的可替代选择,特别是随着 S4 及其变种(如 S4nd、Hippo、Hyena、Diagnol State Spaces(DSS)、Gated State Spaces(GSS)、Linear Recurrent Unit(LRU)、Liquid-S4、Mamba 等)的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类,还重点介绍了 SSMs 在视觉、视频、音频、语音、语言(特别是长序列建模)、医疗(包括基因组学)、化学(如药物设计)、推荐系统和时间序列分析等领域的不同应用。此外,我们总结了 SSMs 在长序列竞技场(LRA)、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到:https://github.com/badripatro/mamba360。
Apr, 2024