状态空间不足：机器翻译需要注意力

Apr, 2023

状态空间不足：机器翻译需要注意力

State Spaces Aren't Enough: Machine Translation Needs Attention

Ali Vardasbi, Telmo Pessoa Pires, Robin M. Schmidt, Stephan Peitz

TL;DR本文介绍了最近提出的序列模型 Structured State Spaces，以及将其应用于机器翻译任务中的实验。我们发现，与 Transformer 相比，S4 在翻译长句方面存在困难。最终我们提出加入注意力机制，使得 S4 的性能优于 Transformer。

Abstract

structured state spaces for Sequences (S4) is a recently proposed sequence model with successful applications in various tasks, e.g. vision, language modeling, and audio. Thanks to its mathematical formulation, it compresses its input to a single hidden state, and is able to capture lo

sequence model structured state spaces machine translation encoder-decoder variants attention mechanism

发现论文，激发创造

为长形视频理解选择性结构状态空间

本论文提出了一种轻量级掩膜生成器的技术，采用长短掩膜对 S4 模型进行改进，从而更有效、准确地模拟视频中的长期时空依赖关系，并在三个数据集上均取得了比之前最先进的 S4 模型更高的准确性，降低了 23％的内存占用。

Mar, 2023

利用结构化状态空间高效建模长序列

提出了一种结构化状态空间序列模型（S4），它在处理长依赖序列数据方面与传统模型相比有着更好的结果，通过调整状态矩阵可以将模型计算复杂度降低，达到了 SOTA 水平。

Oct, 2021

语音识别的多头状态空间模型

本文提出了一种带有特殊门控机制的多头状态空间（MH-SSM）架构，它可以作为多头注意力在转换器编码器中的替代品，在对于序列数据的处理中能够比转换器转录器更好地优化带来的结果，在 LibriSpeech 语音识别数据集上提高了性能。同时，我们将 MH-SSMs 层与转换器块相结合，成为 Stateformer，且无需使用外部语言模型，在 LibriSpeech 任务中实现了最先进的性能，其开发和测试集上的字错率分别为 1.76％/4.37％和 1.91％/4.36％。

May, 2023

门控状态空间实现的长序列语言模型

本论文介绍了一种基于门控状态空间（GSS）的自回归序列建模方法，该方法使用自注意力来建模局部依赖关系，从而能够有效地处理长距离依赖关系，且在英语书籍、Github 源代码和 ArXiv 数学文章上的实验表明，该方法训练速度明显快于传统方法并且具有零样本推广能力。

Jun, 2022

树到序列的注意力神经机器翻译

本文提出了一种新的端对端句法神经机器翻译模型，在源端短语结构的基础上扩展了序列到序列模型，并引入了注意力机制，可以软对齐短语和源句子中的单词，实验结果表明，相比于序列到序列的注意力 NMT 模型，该模型表现显著提升，在 WAT'15 英日翻译数据集上，与当下最优秀的树到串翻译系统相比可媲美。

Mar, 2016

序列建模的简化状态空间层

介绍了基于深度学习、HiPPO 形式和线性状态空间模型的结构化状态空间序列（S4）层，以及在其基础上引入了一种新的状态空间层 ——S5 层。与 S4 层使用多个独立的 SSM 相比，S5 层使用一个多输入、多输出的 SSM，从而实现了更高的计算效率和性能。S5 在长距离序列建模任务上达到了最新的最高性能，并使最难的 Path-X 任务的准确率达到了 98.5%。

Aug, 2022

Mamba-360：状态空间模型作为长序列建模的 Transformer 替代方案调研：方法、应用和挑战

序列建模是跨多个领域的一个关键领域，包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上，循环神经网络（RNNs）和长短时记忆网络（LSTMs）在机器翻译、命名实体识别等序列建模任务中占主导地位，但转换器的进步改变了这一范式，因为其性能更优越。然而，转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题，其中使用频谱网络或卷积在一些任务上表现良好，但仍然难以处理长序列。状态空间模型（SSMs）已经成为此背景下序列建模范式的有希望的可替代选择，特别是随着 S4 及其变种（如 S4nd、Hippo、Hyena、Diagnol State Spaces（DSS）、Gated State Spaces（GSS）、Linear Recurrent Unit（LRU）、Liquid-S4、Mamba 等）的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类，还重点介绍了 SSMs 在视觉、视频、音频、语音、语言（特别是长序列建模）、医疗（包括基因组学）、化学（如药物设计）、推荐系统和时间序列分析等领域的不同应用。此外，我们总结了 SSMs 在长序列竞技场（LRA）、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到：https://github.com/badripatro/mamba360。

Apr, 2024

决策 S4：通过状态空间层实现高效基于序列的强化学习

本研究提出两种算法：一种通过轨迹实现离线训练，另一种通过一种基于稳定 Actor-Critic 机制的循环训练方法实现在线训练，实验结果证明该方法优于多种变体的决策 Transformer 以及其他基准方法，同时降低了延迟、参数数量和训练时间，更适用于现实世界的 RL。

Jun, 2023

半自回归神经机器翻译

本论文提出一种用于快速序列生成的新型模型：半自回归 Transformer (SAT)，该模型在保持全局自回归属性的同时减轻了本地自回归属性，从而能够在每个时间步骤同时产生多个连续的词。在英德翻译和中英翻译任务上进行的实验证明，SAT 实现了翻译质量和解码速度之间的良好平衡。

Aug, 2018

面向世界模型骨干网络的对比：循环神经网络，Transformer 和 S4

本文探讨了替代循环神经网络的 S4 模型和 Transformers 模型在增强学习模型中的应用及其优势，提出了第一个基于 S4 模型的世界模型，S4WM，其在各项测试中展现了超越 Transformers 的长期记忆和训练效率，结果为模型建立打下良好基础。

Jul, 2023