重新审视简单的神经概率语言模型

ACLApr, 2021

重新审视简单的神经概率语言模型

Revisiting Simple Neural Probabilistic Language Models

Simeng Sun, Mohit Iyyer

TL;DR本文主要通过对比分析神经概率语言模型和 Transformer 模型的特点，提出使用 NPLM 的本地连接层替换 Transformer 的第一自注意层，从而在三个单词级语言建模数据集上获得小而一致的困惑度降低。

Abstract

Recent progress in language modeling has been driven not only by advances in neural architectures, but also through hardware and optimization improvements. In this paper, we revisit the neural probabilistic langu

language modeling neural architectures nplm transformer perplexity

发现论文，激发创造

一个用于训练神经概率语言模型的快速简单算法

本文提出了一种快速而简单的基于噪声对比估计算法的 NPLM 训练方法，用此方法训练了几个神经语言模型并在 Microsoft Research 句子完成挑战数据集上取得了最先进的结果，有效地降低了训练时间。

Jun, 2012

神经格点语言模型

提出了一种名为神经格栅语言模型的新的语言建模方法，该方法在多个层次上具有信息预测和调节的能力，并通过对可能路径的格栅进行边际化以计算序列概率或优化参数。实验证明，使用多义词嵌入的英语神经格栅语言模型能够将困惑度相对于单词层面基线提高 9.95％，而处理多字符标记的中文模型能够将困惑度相对于字符层面基线提高 20.94％。

Mar, 2018

移动设备神经语言模型自适应修剪

本文通过在 quasi-recurrent neural networks (QRNNs) 基础上应用剪枝技术来提供一种选择不同操作点的 “旋钮”，并提出一种使用可忽略量的内存恢复一些 perplexity 的简单技术，并在树莓派上考虑 perplexity 和能耗两方面的实证评估，证明了哪种方法能提供最佳的 perplexity - 能耗操作点，其中一种技术能够在一个操作点上相对于现有技术，提供 40％的能量节省和仅 17％的相对 perplexity 增加。

Sep, 2018

探索语言建模的极限

本文研究了递归神经网络在大规模语言建模中的最新进展和应用，对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨，并在 One Billion Word Benchmark 上进行了详尽的研究，最佳单一模型将习惯度从 51.3 降低到 30.0，而模型集成则创下了 41.0 到 23.7 的新纪录，在总结中，研究结果可供自然语言处理和机器学习界进一步研究和提高。

Feb, 2016

只需添加功能：神经符号语言模型

本文提出了一种方法来增强神经网络语言模型的归纳偏好，即通过将简单的函数结合到神经体系结构中形成分层神经符号语言模型，进而显著降低小语料库语言建模的困惑度，并证明其表现提高在更大的语料库中也会持续提升。

Dec, 2019

循环神经网络语言模型的扩展

本论文调查了循环神经网络语言模型（RNNLMs）的规模特性，对在 GPU 上训练非常大的 RNN 的方法进行了讨论，并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高，但相比于 N 元模型，RNNLMs 在标准测试中得到了更低的困惑度。此外，我们训练了目前已知的最大 RNN，并在 ASR 任务上表现出 18% 的相对词误差率提升，在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的 1 BLEU 点表现提升以及词预测方面的 17% 相对命中率提高。

Feb, 2015

轻量级自适应神经网络与 N-gram 语言模型混合

本文介绍了一种通过小型神经网络来预测混合模型权重的方法，以提高神经语言模型和 n 元语法模型的性能。实验结果表明，该方法能显著提高 One Billion Word benchmark 上的性能。

Apr, 2018

太大而无法失败：较大规模的语言模型对痴呆相关语言异常的诱导具有不成比例的抵抗力

神经网络的内在评估指标，困惑度（PPL），被广泛用于理解自回归神经语言模型（NLMs）的行为。该研究探索了一种新型的双向注意力头切除方法，其呈现了与人脑研究中认知和大脑储备概念相关的特性，暗示了转换器模型中的注意机制可能与神经退行性疾病和衰老的某些方面的进展有关。

Jun, 2024

关于预训练语言模型 N-gram 逼近的研究

本研究调查了预先训练的语言模型在自动语音识别中的潜在用途，对比了大规模文本抽样和概率转换的应用。在八个特定领域的语料库中，发现采样的近似方法支持使用，插值与大规模文本语料库一起使用对比基线三元组能使测试困惑度提高 15％，我们引入了一种有限制的词汇解码方法，这将进一步提高 5％的改进。

Jun, 2023

自适应半参数语言模型

该研究提出了一种结合大型参数神经网络和非参数周期性记忆组件的语言模型，通过缓存本地隐藏状态和检索一组最近的邻居标记来使用扩展的短期上下文和全局长期记忆，并设计门控函数来自适应地组合多个信息源来做出预测。

Feb, 2021