神经网络中的非确定性堆栈
本论文提出了一种可微分的栈数据结构,它基于 Lang 算法,能够同时并行地编码指数级数量的栈配置,结合递归神经网络控制器我们称之为非确定性堆栈 RNN。我们将模型与已有的堆栈 RNN 进行比较,并在各种形式化语言上演示了模型可靠地收敛性和准确性。
Oct, 2020
本文介绍了一种基于 PDA 的不确定状态堆栈循环神经网络(NS-RNN)模型,它使用不同 iable stacks,以提高自然语言处理的性能,并提出了一个限制版本的 NS-RNN,以便处理无限长的序列。该模型在五个上下文无关语言建模任务中实现了更低的交叉熵,包括 Penn Treebank 上的一个任务。
Sep, 2021
通过给循环神经网络增加非确定性堆栈数据结构,可以扩展循环神经网络的语言识别能力,识别上下文无关语言和更多的非上下文无关语言,同时提高信息容量,这可以通过模拟向量堆栈来实现。
Oct, 2022
分析了增加堆栈功能的 RNN 模型的行为,研究它们在多个任务中的表现,并发现这些模型可以通过发现直观的基于堆栈的策略来解决这些任务。但是,与 LSTMs 等经典架构相比,堆栈 RNNs 更难训练,并且更复杂的网络通常会将栈用作非结构化内存来找到近似解。
Sep, 2018
本研究讨论了一种利用外部栈内存扩展循环神经网络处理能力的方法,即神经网络下推自动机(NNPDA),并详细介绍了它的构建、训练和从训练网络中提取象征信息的能力。通过样本字符串的训练,可以提取出离散下推自动机(PDA),能够准确地识别未知来源语法的任意长度的字符串,并且与原始语法的 PDA 相同或等价。
Nov, 2017
本文通过探究无监督条件下对成分结构的学习,提出了使用一种技术从堆叠循环神经网络的推送行为中提取句法树,证明堆叠循环神经网络确实推断出了具有语言学相关的层次结构。
Jun, 2019
本研究旨在探究神经语言模型是否能够在单线性序列输入的情况下提取层次信息,并通过中心嵌套句子和语法岛约束等自然语言现象的实验研究证明:LSTM 能够识别和利用堆栈数据结构来存储和获取一定数量的语言层次结构。
Jun, 2019
我们提出了堆栈注意力:一种集成堆栈的注意力操作符,其灵感来源于堆栈与上下文无关语言(CFLs)的理论联系,以解决标准注意力无法识别某些句法结构的局限性。我们提出了两种变种:一种与确定性下推自动机(PDAs)相关,一种基于非确定性 PDAs,使得 transformers 能够识别任意 CFLs。我们证明,具有堆栈注意力的 transformers 在学习 CFLs 方面非常有效,能够在理论上具有最大的解析困难的 CFL 上取得强大的结果。我们还证明,堆栈注意力在受约束参数预算下在自然语言建模中更加有效,并包括机器翻译方面的结果。
Oct, 2023
自然语言被认为是(轻度)上下文敏感的。为了解决 transformer 模型在建模无上下文语言任务方面的能力限制,我们提出了利用可微分的基于堆栈的注意力机制来增强它们的方法。我们的基于堆栈的注意力机制可以与任何基于 transformer 的语言模型结合,对模型添加了一定程度的可解释性。我们展示了我们的基于堆栈的注意力机制的加入使得 transformer 模型能够建模一些,但不是全部确定性的无上下文语言。
May, 2024