非确定性堆栈循环神经网络的惊人计算能力

ICLROct, 2022

非确定性堆栈循环神经网络的惊人计算能力

The Surprising Computational Power of Nondeterministic Stack RNNs

Brian DuSell, David Chiang

TL;DR通过给循环神经网络增加非确定性堆栈数据结构，可以扩展循环神经网络的语言识别能力，识别上下文无关语言和更多的非上下文无关语言，同时提高信息容量，这可以通过模拟向量堆栈来实现。

Abstract

Traditional recurrent neural networks (RNNs) have a fixed, finite number of memory cells. In theory (assuming bounded range and precision), this limits their formal language recognition power to regular languages

recurrent neural networks context-free languages nondeterministic stack language recognition information capacity

发现论文，激发创造

使用非确定性堆栈 RNN 学习无上下文语言

本论文提出了一种可微分的栈数据结构，它基于 Lang 算法，能够同时并行地编码指数级数量的栈配置，结合递归神经网络控制器我们称之为非确定性堆栈 RNN。我们将模型与已有的堆栈 RNN 进行比较，并在各种形式化语言上演示了模型可靠地收敛性和准确性。

Oct, 2020

神经网络中的非确定性堆栈

本论文提出了将非确定性栈结构引入神经网络，通过可微分的数据结构实现非确定性下推自动机并将其融入循环神经网络和 Transformer 网络，从而提高其语法上下文无关语种的识别能力，并在自然语言建模方面进行了实证研究，并取得了不错的效果。

Apr, 2023

使用可微的不确定栈学习层次结构

本文介绍了一种基于 PDA 的不确定状态堆栈循环神经网络（NS-RNN）模型，它使用不同 iable stacks，以提高自然语言处理的性能，并提出了一个限制版本的 NS-RNN，以便处理无限长的序列。该模型在五个上下文无关语言建模任务中实现了更低的交叉熵，包括 Penn Treebank 上的一个任务。

Sep, 2021

神经堆栈的无可及转换

分析了增加堆栈功能的 RNN 模型的行为，研究它们在多个任务中的表现，并发现这些模型可以通过发现直观的基于堆栈的策略来解决这些任务。但是，与 LSTMs 等经典架构相比，堆栈 RNNs 更难训练，并且更复杂的网络通常会将栈用作非结构化内存来找到近似解。

Sep, 2018

神经网络下推自动机：模型、栈和学习模拟

本研究讨论了一种利用外部栈内存扩展循环神经网络处理能力的方法，即神经网络下推自动机（NNPDA），并详细介绍了它的构建、训练和从训练网络中提取象征信息的能力。通过样本字符串的训练，可以提取出离散下推自动机（PDA），能够准确地识别未知来源语法的任意长度的字符串，并且与原始语法的 PDA 相同或等价。

Nov, 2017

关于 RNN 语言模型归纳偏差的理论结果

循环神经网络（RNNs）作为语言模型（LMs）的经验成功可能与其能够有效地表示人类语言中的有界分层结构有关，并且可以推广其构造以表示更大类别的 LMs，即可以用带有边界堆栈和广义堆栈更新函数的推挤自动机来表示。然而，RNNs 在表示多样化的非分层 LM 类别时的效率表明其缺乏具体的认知和以人类语言为中心的归纳偏见。

Feb, 2024

神经图灵机上的堆栈操作学习

本文探讨了神经图灵机在处理括号匹配等长时依赖数据时的表现，结果显示其不仅能够模拟栈并学习识别该种算法，而且能够具有强大的泛化能力。

Dec, 2016

循环神经语言模型作为概率有限状态自动机

本文研究了 RNN 语言模型对概率分布的表示能力，发现简单的 RNN 等效于概率有限状态自动机，能够表示有限状态模型可表达的概率分布的严格子集，同时研究了用 RNN 表示确定性有限状态语言模型的空间复杂度。这些结果对于了解 RNN 语言模型的能力和限制具有重要意义。

Oct, 2023

评估 LSTM 模型在形式语言中的泛化能力

本研究对长短期记忆网络的归纳学习能力进行了实证评估，发现在不同的训练设置下模型性能存在显著差异，并强调在提出神经网络模型的学习能力时需要进行仔细的分析和评估。

Nov, 2018

有限精度 RNN 在语言识别中的实际计算能力

本文研究了有限精度的 RNNs，证明 LSTM 和 Elman-RNN with ReLU activation 比 RNN with a squashing activation 和 GRU 更加强大，可以实现计数行为，并且实验证明了 LSTM 学习了有效地使用计数机制。

May, 2018