评估LSTM模型在形式语言中的泛化能力
本文提出了一种新的循环神经网络体系结构Recurrent Memory Network(RMN),不仅能够放大循环神经网络的作用,而且有助于我们理解其内部功能并发现数据中的潜在模式。在语言建模和句子完成任务上展示了RMN的强大性能。在长句完成挑战中,RMN的准确性为69.2%,超过了以前的最新技术水平。
Jan, 2016
本文通过对两种循环神经网络的实验研究,证明了正则正负推理算法是深度神经网络能否表示和学习时间序列中的长期依赖的可靠工具。此外,本文发现在同种实验中简单循环神经网络在最难的实验中表现出色,长短时记忆网络的表现总体上比简单循环神经网络差。
May, 2017
研究如何通过自然语言数据训练LSTM模型,并发现这种数据能够帮助LSTM模型更好地记忆并回忆输入的令牌,同时LSTM也会通过某些神经元来计算输入的时间步数。
May, 2018
本研究论文介绍了递归神经网络 (RNN)、 长短期记忆网络 (LSTM)及其变体,在训练过程中解决长序列中的梯度消失/爆炸问题,并详细介绍了LSTM 中的门控单元,双向 RNN 及 Embeddings from Language Model (ELMo) network 的原理。
Apr, 2023
本文研究了RNN语言模型对概率分布的表示能力,发现简单的RNN等效于概率有限状态自动机,能够表示有限状态模型可表达的概率分布的严格子集,同时研究了用RNN表示确定性有限状态语言模型的空间复杂度。这些结果对于了解RNN语言模型的能力和限制具有重要意义。
Oct, 2023
循环神经网络(RNNs)作为语言模型(LMs)的经验成功可能与其能够有效地表示人类语言中的有界分层结构有关,并且可以推广其构造以表示更大类别的LMs,即可以用带有边界堆栈和广义堆栈更新函数的推挤自动机来表示。然而,RNNs在表示多样化的非分层LM类别时的效率表明其缺乏具体的认知和以人类语言为中心的归纳偏见。
Feb, 2024
通过将递归神经网络语言模型连接到概率有限状态自动机,我们重新审视了递归神经网络语言模型的表征能力,并证明具有线性边界精度的递归神经网络语言模型可以表示任意的正则语言模型。
May, 2024
本研究解决了神经网络在形式语言理论中的应用差异问题,强调了机器应作为字符串的二元分类器进行训练。通过应用一种通用方法并扩展现有算法以控制字符串长度,研究表明RNN和LSTM在性能上通常优于变压器,这为未来语言识别理论的实证测试奠定了基础,并发布了名为FLaRe的数据集作为基准。
Nov, 2024