神经语言模型为何能解决下一个单词预测?数学角度分析
本文通过数学研究自回归语言模型预训练在下游任务中的应用,提出了将分类任务转化为句子填充任务的假设,证实表现好的语言模型可以是有意义的预训练任务,并给出了相应的数学形式化,同时通过分析认为语言模型可以有助于线性解决分类任务。
Oct, 2020
探讨了人类语言习得中词汇分类的起源是基于先天内在结构还是出于自然学习的能力,利用人工神经网络预测语句中下一个词,揭示了也许由于预测编码和过程,大脑也可能形成抽象的词汇分类,即使其在训练时没有接收到有关词汇分类或语法规则的任何明确信息。
Feb, 2023
通过在人工语言学习研究中复制并测试深度神经网络学习新语言的记忆和推广能力,我们在神经网络与人类之间发现了惊人的相似性,并发现结构化语言输入在提高神经网络系统化概括和记忆错误方面的效果与自然语言存在高度相关性。
Feb, 2023
本文探讨使用众多的文本数据训练出来的预训练语言机器,对人脑语言理解的预测能力。研究发现,这两者之间的相似性是由下个词的预测机制引起的。作者的实验发现,对机器的语料库进行特定的自然文本刺激文本预测下个词,可以显著提高他们与大脑记录的对齐程度。然而,他们指出与大脑记录对齐的提高不仅仅是由于词汇级别或多词级别语义的改善,他们通过调整词序进一步证实这一点。
Dec, 2022
通过对二十多种不同的计算模型测试发现,尽管这些模型可能包含不同的结构、方法和数据集,但其前向单词期望和人类阅读行为之间的关系是很直接的,其中深度 Transformer 模型和 n-gram 模型在眼动数据方面表现优异,而在句法知识和预测能力之间不存在重大关系。
Jun, 2020
本文主要通过对比分析神经概率语言模型和 Transformer 模型的特点,提出使用 NPLM 的本地连接层替换 Transformer 的第一自注意层,从而在三个单词级语言建模数据集上获得小而一致的困惑度降低。
Apr, 2021
该研究回顾了当前深度学习语言处理网络的主要创新,讨论了一系列研究表明深度网络能够进行微妙的语法依赖性泛化,但也不依赖于系统化的组合规则,这一现象应该引起语言学家和认知科学家的兴趣。
Mar, 2019
本文提出了一种方法来增强神经网络语言模型的归纳偏好,即通过将简单的函数结合到神经体系结构中形成分层神经符号语言模型,进而显著降低小语料库语言建模的困惑度,并证明其表现提高在更大的语料库中也会持续提升。
Dec, 2019
本文介绍了如何在语言模型中引入编译的神经网络(CoNNs),以实现语言模型的规则全面理解能力。该方法称为 “神经理解”,可提高语言模型在符合任务中的性能,在需要超越训练数据模式识别的领域中特别有用。在符号操作中,我们的方法能够提高语言模型的绝对准确性,增强其规则推理、符号推理和算术推理能力。
Apr, 2023