神经网络中的非确定性堆栈

Apr, 2023

Nondeterministic Stacks in Neural Networks

Brian DuSell

TL;DR本论文提出了将非确定性栈结构引入神经网络，通过可微分的数据结构实现非确定性下推自动机并将其融入循环神经网络和 Transformer 网络，从而提高其语法上下文无关语种的识别能力，并在自然语言建模方面进行了实证研究，并取得了不错的效果。

Abstract

Human language is full of compositional syntactic structures, and although neural networks have contributed to groundbreaking improvements in computer systems that process language, widely-used neural network architectures still exhibit limitations in their ability to process

neural networks syntax data structure stacks language modeling

发现论文，激发创造

使用非确定性堆栈 RNN 学习无上下文语言

本论文提出了一种可微分的栈数据结构，它基于 Lang 算法，能够同时并行地编码指数级数量的栈配置，结合递归神经网络控制器我们称之为非确定性堆栈 RNN。我们将模型与已有的堆栈 RNN 进行比较，并在各种形式化语言上演示了模型可靠地收敛性和准确性。

Oct, 2020

使用可微的不确定栈学习层次结构

本文介绍了一种基于 PDA 的不确定状态堆栈循环神经网络（NS-RNN）模型，它使用不同 iable stacks，以提高自然语言处理的性能，并提出了一个限制版本的 NS-RNN，以便处理无限长的序列。该模型在五个上下文无关语言建模任务中实现了更低的交叉熵，包括 Penn Treebank 上的一个任务。

Sep, 2021

非确定性堆栈循环神经网络的惊人计算能力

通过给循环神经网络增加非确定性堆栈数据结构，可以扩展循环神经网络的语言识别能力，识别上下文无关语言和更多的非上下文无关语言，同时提高信息容量，这可以通过模拟向量堆栈来实现。

Oct, 2022

神经堆栈的无可及转换

分析了增加堆栈功能的 RNN 模型的行为，研究它们在多个任务中的表现，并发现这些模型可以通过发现直观的基于堆栈的策略来解决这些任务。但是，与 LSTMs 等经典架构相比，堆栈 RNNs 更难训练，并且更复杂的网络通常会将栈用作非结构化内存来找到近似解。

Sep, 2018

神经网络下推自动机：模型、栈和学习模拟

本研究讨论了一种利用外部栈内存扩展循环神经网络处理能力的方法，即神经网络下推自动机（NNPDA），并详细介绍了它的构建、训练和从训练网络中提取象征信息的能力。通过样本字符串的训练，可以提取出离散下推自动机（PDA），能够准确地识别未知来源语法的任意长度的字符串，并且与原始语法的 PDA 相同或等价。

Nov, 2017

在神经堆栈中寻找句法表示

本文通过探究无监督条件下对成分结构的学习，提出了使用一种技术从堆叠循环神经网络的推送行为中提取句法树，证明堆叠循环神经网络确实推断出了具有语言学相关的层次结构。

Jun, 2019

神经图灵机上的堆栈操作学习

本文探讨了神经图灵机在处理括号匹配等长时依赖数据时的表现，结果显示其不仅能够模拟栈并学习识别该种算法，而且能够具有强大的泛化能力。

Dec, 2016

神经语言模型中的分层表示：期望的抑制和恢复

本研究旨在探究神经语言模型是否能够在单线性序列输入的情况下提取层次信息，并通过中心嵌套句子和语法岛约束等自然语言现象的实验研究证明：LSTM 能够识别和利用堆栈数据结构来存储和获取一定数量的语言层次结构。

Jun, 2019

层叠注意力：提高 Transformer 模型对层次模式建模的能力

我们提出了堆栈注意力：一种集成堆栈的注意力操作符，其灵感来源于堆栈与上下文无关语言（CFLs）的理论联系，以解决标准注意力无法识别某些句法结构的局限性。我们提出了两种变种：一种与确定性下推自动机（PDAs）相关，一种基于非确定性 PDAs，使得 transformers 能够识别任意 CFLs。我们证明，具有堆栈注意力的 transformers 在学习 CFLs 方面非常有效，能够在理论上具有最大的解析困难的 CFL 上取得强大的结果。我们还证明，堆栈注意力在受约束参数预算下在自然语言建模中更加有效，并包括机器翻译方面的结果。

Oct, 2023

堆栈注意力的 Transformer

自然语言被认为是（轻度）上下文敏感的。为了解决 transformer 模型在建模无上下文语言任务方面的能力限制，我们提出了利用可微分的基于堆栈的注意力机制来增强它们的方法。我们的基于堆栈的注意力机制可以与任何基于 transformer 的语言模型结合，对模型添加了一定程度的可解释性。我们展示了我们的基于堆栈的注意力机制的加入使得 transformer 模型能够建模一些，但不是全部确定性的无上下文语言。

May, 2024