LOCOST: 面向长文档提要生成的状态空间模型

ACLJan, 2024

LOCOST: 面向长文档提要生成的状态空间模型

LOCOST: State-Space Models for Long Document Abstractive Summarization

Florian Le Bronnec, Song Duong, Mathieu Ravaut, Alexandre Allauzen, Nancy F. Chen...

TL;DRLOCOST 是基于状态空间模型的编码器 - 解码器结构，用于带有长上下文输入的条件文本生成，具有低复杂度的计算和能够处理超长序列的能力。在长篇摘要任务上评估模型，其性能可与同等规模的顶级稀疏转换器相媲美，同时在训练过程中节省高达 50% 的内存，在推理过程中节省高达 87% 的内存。此外，LOCOST 有效地处理超过 600K 个标记的输入文本，在全书摘要任务上达到了新的最先进水平，并为长输入处理开展了新的研究视角。

Abstract

state-space models are a low-complexity alternative to transformers for encoding long sequences and capturing long-term dependencies. We propose locost: an encoder-decoder architecture based on →

state-space models locost conditional text generation long document abstractive summarization sparse attention patterns

发现论文，激发创造

局部关注和内容选择实现的长篇摘要

本研究提出使用 local self-attention 和 explicit content selection 两种方法来应对长篇文档摘要中的长跨度依赖，并利用大型预训练变压器模型在 Spotify Podcast、arXiv 和 PubMed 等标准数据集上进行实验，证明两种方法的组合可以在 3 个任务中实现 ROUGE 得分的最优结果。此外，与现有算法相比，在没有大规模 GPU 计算机卡的情况下，本研究的方法也可以实现相当或更好的结果。

May, 2021

卷积状态空间模型用于长程时空建模

ConvSSMs combine ConvLSTM and state space methods to efficiently model long spatiotemporal sequences, outperforming Transformers and ConvLSTM in terms of training speed and sample generation while matching or exceeding state-of-the-art methods on various benchmarks.

Oct, 2023

LSG 注意力机制：将预训练的 Transformer 推广到长序列

本研究提出了 LSG attention 机制以解决 Transformer 模型自注意力机制中违反 $O (n^2)$ 的限制，同时还提出了相应工具和方法用于新模型的训练和现有模型的调整。实验结果表明，LSG attention 机制在长文本的分类和摘要任务中效率优秀，也可以用于有效地扩展预训练模型的序列长度。

Oct, 2022

长文档摘要的高效注意力机制

本文提出了 Hepos，一种新颖的有效的编码器 - 解码器关注机制，结合 Hepos，我们能够处理比使用全注意力的现有模型多 10 倍的令牌，有别于现有的高斯自注意机制。同时，我们还展示了新的包含非常长的文档和总结的数据集 GovReport，并且试验结果表明，我们的模型产生的 ROUGE 得分明显高于竞争对手比较，包括 PubMed 上的最新最先进的结果，人类评估也表明，我们的模型产生更多有用信息的总结。

Apr, 2021

利用结构化状态空间高效建模长序列

提出了一种结构化状态空间序列模型（S4），它在处理长依赖序列数据方面与传统模型相比有着更好的结果，通过调整状态矩阵可以将模型计算复杂度降低，达到了 SOTA 水平。

Oct, 2021

为长形视频理解选择性结构状态空间

本论文提出了一种轻量级掩膜生成器的技术，采用长短掩膜对 S4 模型进行改进，从而更有效、准确地模拟视频中的长期时空依赖关系，并在三个数据集上均取得了比之前最先进的 S4 模型更高的准确性，降低了 23％的内存占用。

Mar, 2023

使用状态空间视频模型进行长视频片段分类

提出了一种结合自我关注和 S4 层优点的高效长范围视频模型，具有复杂的长范围时空依赖性，比传统的全自注意模型快 2.63 倍，占用 8 倍更少的 GPU 内存，并在视频分类等任务中取得了最先进的结果。

Apr, 2022

长序列处理中的状态空间建模：对 Transformer 时代中的循环的调查

对基于循环模型的顺序数据处理的最新方法进行了深入总结，并提供了关于体系结构和算法解决方案的完整分类，引导研究者在这一吸引人的研究领域进行进一步研究。

Jun, 2024

Mamba-360：状态空间模型作为长序列建模的 Transformer 替代方案调研：方法、应用和挑战

序列建模是跨多个领域的一个关键领域，包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上，循环神经网络（RNNs）和长短时记忆网络（LSTMs）在机器翻译、命名实体识别等序列建模任务中占主导地位，但转换器的进步改变了这一范式，因为其性能更优越。然而，转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题，其中使用频谱网络或卷积在一些任务上表现良好，但仍然难以处理长序列。状态空间模型（SSMs）已经成为此背景下序列建模范式的有希望的可替代选择，特别是随着 S4 及其变种（如 S4nd、Hippo、Hyena、Diagnol State Spaces（DSS）、Gated State Spaces（GSS）、Linear Recurrent Unit（LRU）、Liquid-S4、Mamba 等）的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类，还重点介绍了 SSMs 在视觉、视频、音频、语音、语言（特别是长序列建模）、医疗（包括基因组学）、化学（如药物设计）、推荐系统和时间序列分析等领域的不同应用。此外，我们总结了 SSMs 在长序列竞技场（LRA）、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到：https://github.com/badripatro/mamba360。

Apr, 2024

总结系统编码器 - 解码器注意力中的稀疏性和句子结构

研究表明摘要任务中有稀疏的句子结构，可以用部分输入句子来限制编码器 - 解码器注意机制，并保持系统性能。

Sep, 2021