我们发现,LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率,并且对于不太可能出现的序列更为严重,尽管使用更多的训练数据减轻了这种倾向,但这种低估行为还是存在,并且在目标分布熵较低时加剧了这种情况,并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。
Mar, 2022
本文提出了一种方法来增强神经网络语言模型的归纳偏好,即通过将简单的函数结合到神经体系结构中形成分层神经符号语言模型,进而显著降低小语料库语言建模的困惑度,并证明其表现提高在更大的语料库中也会持续提升。
Dec, 2019
本研究通过定义词汇表上的一组概率分布,动态地计算这些分布上的混合权重,演示如何将基于计数的 n-gram 模型与神经 LM 结合在单个模型框架中,从而创建新颖的混合模型,并证明这些方法的优势。
Jun, 2016
正确计算字词概率的方法及其对句子理解和词汇优化分析的影响。
Jun, 2024
本文主要通过对比分析神经概率语言模型和 Transformer 模型的特点,提出使用 NPLM 的本地连接层替换 Transformer 的第一自注意层,从而在三个单词级语言建模数据集上获得小而一致的困惑度降低。
Apr, 2021
本文提出了一种基于探测任务的神经网络模型的韧性度量方法,在通过语言模型中提取出的语言结构上评估了四种大型语言模型的一致性和鲁棒性,并发现神经网络的新兴句法表示具有脆弱性。
Oct, 2022
本文探究检索增强语言模型及 k - 最近邻语言模型相较于传统参数化语言模型进行下一个单词预测时为何表现更佳的原因,并发现使用不同输入表示、近似最近邻搜索、以及 kNN 分布的 softmax 温度是关键因素,进而将这些启示融入传统语言模型的模型架构和训练方法来提升其表现。
Jan, 2023
评估语言模型在概率推理能力上的表现,并通过使用理想化和真实统计分布的方式进行系统评估,包括估计百分位数、生成样本和计算概率等三个任务。我们发现,语言模型通过对分布进行推断,并结合真实世界的背景、示例和简化假设等方式可以提高推理能力。我们还开发了一个全面的基准分布数据集和相关的问题答案对,将其公开发布。
提出了一种名为神经格栅语言模型的新的语言建模方法,该方法在多个层次上具有信息预测和调节的能力,并通过对可能路径的格栅进行边际化以计算序列概率或优化参数。实验证明,使用多义词嵌入的英语神经格栅语言模型能够将困惑度相对于单词层面基线提高 9.95%,而处理多字符标记的中文模型能够将困惑度相对于字符层面基线提高 20.94%。
Mar, 2018
通过研究大型语言模型的泛化能力问题以及多种提高其分布韧性的方法,本文提出了未来改进大型语言模型鲁棒性的研究方向。
Jun, 2022