易于语言模型的是哪些语言?从学习概率正则语言的角度看
通过将递归神经网络语言模型连接到概率有限状态自动机,我们重新审视了递归神经网络语言模型的表征能力,并证明具有线性边界精度的递归神经网络语言模型可以表示任意的正则语言模型。
May, 2024
评估语言模型在概率推理能力上的表现,并通过使用理想化和真实统计分布的方式进行系统评估,包括估计百分位数、生成样本和计算概率等三个任务。我们发现,语言模型通过对分布进行推断,并结合真实世界的背景、示例和简化假设等方式可以提高推理能力。我们还开发了一个全面的基准分布数据集和相关的问题答案对,将其公开发布。
Jun, 2024
本文研究了 RNN 语言模型对概率分布的表示能力,发现简单的 RNN 等效于概率有限状态自动机,能够表示有限状态模型可表达的概率分布的严格子集,同时研究了用 RNN 表示确定性有限状态语言模型的空间复杂度。这些结果对于了解 RNN 语言模型的能力和限制具有重要意义。
Oct, 2023
我们发现,LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率,并且对于不太可能出现的序列更为严重,尽管使用更多的训练数据减轻了这种倾向,但这种低估行为还是存在,并且在目标分布熵较低时加剧了这种情况,并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。
Mar, 2022
通过对比具有不同模型结构的 LMs 在少量和大量数据上的表现,分析 RNNs 和 IRLMs 的性能优劣,展示 IRLMs 的一些优点与缺陷,并提出了一种基于 long-context units 的 LM 模型,通过该模型在 Microsoft Research Sentence Completion 数据上最高可以达到 60.8% 的性能。
Jan, 2013
本研究对长短期记忆网络的归纳学习能力进行了实证评估,发现在不同的训练设置下模型性能存在显著差异,并强调在提出神经网络模型的学习能力时需要进行仔细的分析和评估。
Nov, 2018
该研究论文探讨了 Transformer 语言模型与 n-gram 语言模型之间的关系,通过分析机器学习模型的概率表示能力,提供了对 Transformer 语言模型代表概率分布的机制的初步认识。
Apr, 2024
本论文调查了循环神经网络语言模型(RNNLMs)的规模特性,对在 GPU 上训练非常大的 RNN 的方法进行了讨论,并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高,但相比于 N 元模型,RNNLMs 在标准测试中得到了更低的困惑度。此外,我们训练了目前已知的最大 RNN,并在 ASR 任务上表现出 18% 的相对词误差率提升,在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的 1 BLEU 点表现提升以及词预测方面的 17% 相对命中率提高。
Feb, 2015