基于计数和神经模型的泛化和混合语言模型
本文提出了一种方法来增强神经网络语言模型的归纳偏好,即通过将简单的函数结合到神经体系结构中形成分层神经符号语言模型,进而显著降低小语料库语言建模的困惑度,并证明其表现提高在更大的语料库中也会持续提升。
Dec, 2019
本文介绍了一种通过小型神经网络来预测混合模型权重的方法,以提高神经语言模型和 n 元语法模型的性能。实验结果表明,该方法能显著提高 One Billion Word benchmark 上的性能。
Apr, 2018
我们发现,LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率,并且对于不太可能出现的序列更为严重,尽管使用更多的训练数据减轻了这种倾向,但这种低估行为还是存在,并且在目标分布熵较低时加剧了这种情况,并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。
Mar, 2022
提出了一种名为神经格栅语言模型的新的语言建模方法,该方法在多个层次上具有信息预测和调节的能力,并通过对可能路径的格栅进行边际化以计算序列概率或优化参数。实验证明,使用多义词嵌入的英语神经格栅语言模型能够将困惑度相对于单词层面基线提高 9.95%,而处理多字符标记的中文模型能够将困惑度相对于字符层面基线提高 20.94%。
Mar, 2018
本文提出采用 $n$-gram 语言模型与神经网络语言模型的结合来提升自然语言处理任务性能,并在三项典型任务的实验中表明,我们的方法始终优于单独使用神经网络语言模型。同时,我们还展示了该方法通过简单地切换到特定领域的 $n$-gram 模型即可进行有效的领域自适应。
Oct, 2022
神经语言模型(LM)在许多技术任务上的成功使其潜在相关性作为语言科学理论得以体现,尽管 LM 训练和儿童语言习得之间存在一些明显的差异。本文认为一些用于评估 LM 语法能力的主要基准可能不够严格,并表明基于模板的基准缺乏语言理论和心理学研究中常见的结构多样性。当用小规模数据对儿童语言习得进行建模时,LM 可以轻易地被简单的基准模型匹配。我们提倡使用现成的、经过精心策划的数据集,这些数据集已由大量母语用户进行了梯度可接受性评估,并旨在特别探索语法的结构基础。在这样一种数据集(LI-Adger 数据集)上,LM 在评估句子时与人类语言用户的方式不一致。最后,我们提出了更好地将 LM 与儿童语言习得的实证研究进行联系的建议。
Oct, 2023
本文主要通过对比分析神经概率语言模型和 Transformer 模型的特点,提出使用 NPLM 的本地连接层替换 Transformer 的第一自注意层,从而在三个单词级语言建模数据集上获得小而一致的困惑度降低。
Apr, 2021
本文提出了一种快速而简单的基于噪声对比估计算法的 NPLM 训练方法,用此方法训练了几个神经语言模型并在 Microsoft Research 句子完成挑战数据集上取得了最先进的结果,有效地降低了训练时间。
Jun, 2012