通过循环引发的隐式 N 元语法
本文提出了一种基于可视化分析的方法,通过理解和比较用于自然语言处理的循环神经网络模型,包括基于各个隐藏状态单元对输入文本的响应和相似性进行 聚类和可视化,以及通过基于聚合信息的图标序列可视化分析 RNN 的隐藏状态的行为,实验结果表明该方法在领域专家的案例研究和评论中具有可用性和有效性。
Oct, 2017
本研究探讨递归神经网络在自然语言处理中的应用情况,研究发现虽然这种网络可以实现递增的句法状态,但是并不总是像人类那样进行泛化,并且没有学习到合适的语法依赖配置。
Sep, 2018
近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络(RNNs)能够实现线性自注意力,这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程,我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性,并暗示某些 RNNs 可能在内部意外地实现了注意力机制。
Sep, 2023
最近在递归神经网络(RNN)架构方面取得的进展,例如 Mamba 和 RWKV,使得 RNN 在语言建模困惑度和下游评估方面与同等规模的变压器相匹配或超过,这表明未来的系统可能会建立在全新的架构之上。本文研究了最初设计用于变压器语言模型的选定可解释性方法是否适用于这些新兴的递归神经网络架构。具体来说,我们专注于通过对比激活添加来控制模型输出,使用调整后的镜头引发潜在预测,并从针对特定条件下生成错误输出的模型中获取潜在知识。我们的结果表明,当应用于 RNN 时,这些技术大多是有效的,并且我们还展示了通过利用 RNN 的压缩状态,可以改善其中一些技术。
Apr, 2024
通过比较基于循环神经网络和 Transformer 架构的语言模型在人类语言处理方面的能力,本文揭示了 Transformer 在解释自定步调阅读时间和阅读过程中神经活动方面优于 RNN,并挑战了人类句子处理涉及循环和即时处理的普遍理念,并提供了线索检索的证据
May, 2020
本文研究了基于循环神经网络(RNN)的提及检测系统的鲁棒性及其在信息提取中的应用,表明在英语的普通或跨领域的情况下,RNNs 不仅在通用情况下优于之前报告的最佳系统(最多可达 9%的相对错误降低),而且在荷兰语中表现出的命名实体识别相似任务中,RNNs 比传统方法显著优越(最多可达 22%的相对错误降低)。
Feb, 2016
本论文探讨了神经机器翻译的编码器隐藏状态在最近邻视角下的信息表达,评估了递归和转换器机器翻译模型的语言语义和句法结构表达能力,并比较了它们在不同方面的表现。
Jul, 2019
本文提出一种基于循环神经网络的语言模型,并利用字符信息中的 n-gram 构建单词嵌入,结合常规单词嵌入。该模型在语言模型数据集上取得最佳困惑度,同时在机器翻译和标题生成等应用任务中也表现出较好的性能。
Jun, 2019