语音识别的多头状态空间模型

May, 2023

Multi-Head State Space Model for Speech Recognition

Yassir Fathullah, Chunyang Wu, Yuan Shangguan, Junteng Jia, Wenhan Xiong...

TL;DR本文提出了一种带有特殊门控机制的多头状态空间（MH-SSM）架构，它可以作为多头注意力在转换器编码器中的替代品，在对于序列数据的处理中能够比转换器转录器更好地优化带来的结果，在 LibriSpeech 语音识别数据集上提高了性能。同时，我们将 MH-SSMs 层与转换器块相结合，成为 Stateformer，且无需使用外部语言模型，在 LibriSpeech 任务中实现了最先进的性能，其开发和测试集上的字错率分别为 1.76％/4.37％和 1.91％/4.36％。

Abstract

state space models (SSMs) have recently shown promising results on small-scale sequence and language modelling tasks, rivalling and outperforming many attention-based approaches. In this paper, we propose a multi-head state space (→

state space models mh-ssm gating mechanisms transformer encoders speech recognition

发现论文，激发创造

饥饿的河马：基于状态空间模型的语言建模

通过使用合成语言建模任务，我们提出了一种新的 H3 SSM 层来弥补 SSMs 与注意力模型之间的表达能力差距，并引入 FlashConv 来提高模型在现代硬件上的训练效率并在 SuperGLUE 基准测试中优于 Transformers。

Dec, 2022

用于新一代网络替代 Transformer 的状态空间模型：概述

在这篇论文中，我们首次全面回顾了 State Space Model（SSM）作为自注意力基础的 Transformer 模型的特性和优势，并提供了实验比较和分析。此外，我们还研究了 SSM 在自然语言处理和计算机视觉等多个领域的应用，并提出了未来研究的方向，希望能推动 SSM 在理论模型和应用方面的发展。

Apr, 2024

块状态变换器

本文介绍了一种名为 Block-State Transformer (BST) 的混合层，它在内部组合了用于长距离上下文建模的 SSM 子层和用于序列的短期表示的 Block Transformer 子层，并研究了三种完全可并行化的 SSM 和块状注意力的集成变体。我们证明了我们的模型在语言模型困惑度上胜过类似的基于 Transformer 的架构，并可以推广到更长的序列。另外，Block-State Transformer 在模型并行化时的层级速度比 Block-Recurrent Transformer 快了十倍以上。

Jun, 2023

一种基于神经状态空间模型的高效语音分离方法

提出了一种基于神经状态空间模型的高效音频分离框架 S4M，该模型可以将输入信号建模为线性常微分方程的形式，并在多尺度表示学习中学习全局一致的分离和重构，其模型复杂度显著低于 Attention-based Sepformer。

May, 2023

深度选择状态空间模型的理论基础

基于 Rough Path Theory，本研究证明了具备选择性机制的随机线性递归在输入控制条件下可产生低维投射的隐藏状态，并阐述了现代选择性状态空间模型的成功和未来 SSM 变体的表达能力。

Feb, 2024

变压器是 SSM：通过结构化状态空间对偶实现的广义模型和高效算法

Transformers 与 state-space models（包括 Mamba）存在相关性，通过结构化半可分矩阵的各种分解，我们开发了一个理论连接的丰富框架，证明了这些模型家族之间的联系。基于我们的 state space duality（SSD）框架，我们设计了一种新的架构（Mamba-2），其核心层是 Mamba 的选择性 SSM 的改进，速度提高了 2-8 倍，同时继续与 Transformers 在语言建模方面竞争。

May, 2024

门控状态空间实现的长序列语言模型

本论文介绍了一种基于门控状态空间（GSS）的自回归序列建模方法，该方法使用自注意力来建模局部依赖关系，从而能够有效地处理长距离依赖关系，且在英语书籍、Github 源代码和 ArXiv 数学文章上的实验表明，该方法训练速度明显快于传统方法并且具有零样本推广能力。

Jun, 2022

状态空间模型中的状态幻觉

通过对比转换器架构的普遍存在的理论弱点，我们的分析揭示了状态空间模型在状态跟踪方面与转换器非常相似的表达能力的限制，这可能从根本上限制了它们解决现实世界状态跟踪问题的能力。

Apr, 2024

DenseMamba：具有密集隐藏连接的状态空间模型，用于高效的大型语言模型

通过在 SSM 中选择性地将浅层隐藏状态集成到深层中，DenseSSM 提供了一种增强隐藏信息流动的新方法，能够在保持训练并行性和推理效率的同时，显著提高各种 SSM 类型的性能。

Feb, 2024

Mamba-360：状态空间模型作为长序列建模的 Transformer 替代方案调研：方法、应用和挑战

序列建模是跨多个领域的一个关键领域，包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上，循环神经网络（RNNs）和长短时记忆网络（LSTMs）在机器翻译、命名实体识别等序列建模任务中占主导地位，但转换器的进步改变了这一范式，因为其性能更优越。然而，转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题，其中使用频谱网络或卷积在一些任务上表现良好，但仍然难以处理长序列。状态空间模型（SSMs）已经成为此背景下序列建模范式的有希望的可替代选择，特别是随着 S4 及其变种（如 S4nd、Hippo、Hyena、Diagnol State Spaces（DSS）、Gated State Spaces（GSS）、Linear Recurrent Unit（LRU）、Liquid-S4、Mamba 等）的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类，还重点介绍了 SSMs 在视觉、视频、音频、语音、语言（特别是长序列建模）、医疗（包括基因组学）、化学（如药物设计）、推荐系统和时间序列分析等领域的不同应用。此外，我们总结了 SSMs 在长序列竞技场（LRA）、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到：https://github.com/badripatro/mamba360。

Apr, 2024