线性递推跟随非线性投影的普适性

Jul, 2023

线性递推跟随非线性投影的普适性

On the Universality of Linear Recurrences Followed by Nonlinear Projections

Antonio Orvieto, Soham De, Caglar Gulcehre, Razvan Pascanu, Samuel L. Smith

TL;DR使用基于循环线性层（包括 S4、S5 和 LRU），与位置逐层多层感知器（MLPs）交错的序列模型家族可以有效逼近任何足够规则的非线性序列映射，其中循环层被视为能够将输入序列信息忠实地存储在内部状态中，并在高度表达的 MLP 进行处理之前。

Abstract

In this note (work in progress towards a full-length paper) we show that a family of sequence models based on recurrent linear layers~(including S4, S5, and the LRU) interleaved with →

sequence models recurrent linear layers position-wise multi-layer perceptrons non-linear sequence-to-sequence map compression algorithms

发现论文，激发创造

具有逐层非线性的状态空间模型是具有指数衰减记忆力的通用逼近器

通过在时间方向上添加逐层非线性激活函数，我们证明堆叠状态空间模型能够近似任意连续序列关系，并增强模型学习复杂序列模式的能力，同时理论和实证结果表明状态空间模型并不能根本解决指数衰减记忆问题。

Sep, 2023

适用于循环神经网络的广义张量模型

本文研究了使用不同非线性激活函数的循环神经网络（RNNs）的理论效率，表明它们也具有普适性和深度效率的特性，并通过计算实验证实了这一理论结果。

Jan, 2019

基于序列长度的线性循环神经网络并行化

该研究论文描述了使用线性顺序依赖关系的 RNN 可以使用并行扫描算法在序列长度上进行并行化训练，通过开发并行线性递归 CUDA 内核，加速多种最先进的 RNN 架构的训练和推理，扩展序列学习到以前无法触及的极长序列区域并成功训练 GILR-LSTM 进行一百万时间步长的合成序列分类任务。

Sep, 2017

一种用于序列建模的轻量级循环网络

本文介绍了一种称为 LRN 的轻量级循环神经网络，它使用输入和遗忘门来处理长时间的依赖性以及梯度消失和爆炸，并且可以作为替代现有循环单元的可落地的解决方案，该方法将计算量从循环中转移至外部，并与自我注意力网络紧密连接。通过六项自然语言处理任务的广泛实验证明，使用 LRN 能够获得最高的运行效率，而且模型性能几乎没有损失。

May, 2019

循环阶梯网络

本文提出了一种基于递归的 Ladder 神经网络扩展，以此解决层次潜在变量模型中需要的推理问题，并证明该架构能够处理包括迭代推理和时间建模在内的各种复杂学习任务，涵盖视频数据的时间建模和提高基于高阶抽象的感知聚类等问题。作者在完全监督、半监督和非监督任务方面都取得了不错的结果，这表明所提出的架构和原则是学习抽象层次结构、学习迭代推理和处理时间信息的强有力工具。

Jul, 2017

线性循环神经网络中推进常规语言推理

最近的研究表明，在自然语言建模和长期建模方面，线性递归神经网络（LRNN）取得了与 Transformer 相媲美的性能，同时提供了快速的并行训练和恒定的推断成本。通过研究 LRNN 的潜在规则学习能力，我们在理论上分析了一些现有的 LRNN，并发现它们在正则语言上存在一些限制。在分析的基础上，我们提出了一种新的 LRNN 模型，它配备了一个块对角线和输入相关的转移矩阵。实验证明，所提出的模型是唯一能够在正则语言任务（如求和、偶数对和模运算）中进行长度外推的 LRNN 模型。

Sep, 2023

卷积序列到序列学习

利用卷积神经网络架构完全替代了循环神经网络的流行序列到序列学习方法，运用门控线性单元简化了梯度传播，为每个解码器层装备了单独的注意力模块，在 GPU 和 CPU 上取得了比 Wu 等人（2016）更高的准确性和十倍以上的速度。

May, 2017

将循环、卷积、连续时间模型与线性状态空间层相结合

本研究将控制系统应用于序列建模，提出了简单的序列模型 LSSL，并通过引入连续时间记忆的结构矩阵来提高模型性能，使用 LSSL 优于其他深度学习模型并在时间序列等领域取得了优秀成果。

Oct, 2021

非线性递归神经网络的逆近似理论

该研究提出了一种逆逼近定理，论证了使用 RNN 对非线性序列关系进行逼近的能力受到存储结构的限制，并提出了一种基于理论分析的重新参数化方法以克服这种限制。

May, 2023

从统一视角解开线性复杂度序列模型的秘密

我们提出了线性复杂度序列模型（LCSM），将各种序列建模技术（包括线性注意力、状态空间模型、长卷积和线性 RNN 等）以及展开、振荡和收缩（EOS）三个不同阶段的建模过程融入一个统一的框架中。通过从一个连贯而简化的视角分析每个组成部分的影响，我们旨在提高对这些模型的理解能力。通过广泛的实验证明，数据驱动方法对于语言建模的三个阶段的有效性至关重要，而手工制作的方法在检索任务中表现更佳。

May, 2024