评估神经语言模型中的分布扭曲

Mar, 2022

Evaluating Distributional Distortion in Neural Language Modeling

Benjamin LeBrun, Alessandro Sordoni, Timothy J. O'Donnell

TL;DR我们发现，LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率，并且对于不太可能出现的序列更为严重，尽管使用更多的训练数据减轻了这种倾向，但这种低估行为还是存在，并且在目标分布熵较低时加剧了这种情况，并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。

Abstract

A fundamental characteristic of natural language is the high rate at which speakers produce novel expressions. Because of this novelty, a heavy-tail of rare events accounts for a significant amount of the total probability mass of distributions in language (Baayen, 2001). Standard lang

language models probability estimation rare events neural networks entropy

发现论文，激发创造

计算词语的概率

正确计算字词概率的方法及其对句子理解和词汇优化分析的影响。

Jun, 2024

超越概率：揭示大型语言模型评估中的不一致性

使用大型语言模型（LLMs）进行多项选择题（MCQs）的实证研究表明，概率评估方法在生成预测方面存在内在局限性，与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关，结果强调了 LLMs 评估方法的有效性和未来研究的启示。

Feb, 2024

神经语言模型的结构弱点：被盗概率

本文研究了神经网络语言模型的内部偏差，并证明了嵌入空间中的概率上限与其凸壳边界上的单词相关。

May, 2020

语言模型能进行概率推理的可能性

评估语言模型在概率推理能力上的表现，并通过使用理想化和真实统计分布的方式进行系统评估，包括估计百分位数、生成样本和计算概率等三个任务。我们发现，语言模型通过对分布进行推断，并结合真实世界的背景、示例和简化假设等方式可以提高推理能力。我们还开发了一个全面的基准分布数据集和相关的问题答案对，将其公开发布。

Jun, 2024

语言模型评估：超越困惑度

我们提出了一个替代方法来量化语言模型学习自然语言的程度：我们询问它们多大程度上与自然语言的统计倾向相匹配。通过分析语言模型生成的文本是否呈现出它们所训练的人类生成文本中存在的统计倾向，提供了一个与显著性测试配对的框架来评估语言模型的拟合程度。我们发现神经语言模型似乎只学会了一部分被考虑的倾向，但与经验性趋势相比，更接近所提出的理论分布（当存在时）。此外，对不同分布的拟合程度高度依赖于模型架构和生成策略。作为具体例子，使用 Nucleus sampling 方式生成的文本比使用标准祖先抽样生成的文本更紧密地遵循自然语言的类型 - 标记关系；LSTMs 生成的文本也非常好地反映了自然语言的长度、停用词和符号分布。

May, 2021

易于语言模型的是哪些语言？从学习概率正则语言的角度看

大规模语言模型的学习能力主要集中在概率语言的学习上，其中正则语言模型的等级和样本字符串的预期长度是学习能力的重要预测因子。

Jun, 2024

透明、来源：评估和解释有真实分布访问的语言模型

我们提出了一种使用人工制造的类似语言的数据来训练、评估和解释神经语言模型的设置。使用大规模概率语法（基于状态拆分的 PCFGs）生成数据，该语法源自大型自然语言语料库，但也可完全控制生成过程。通过比较神经语言建模架构和训练目标对可获取困惑度下界的逼近程度的差异，我们得出了显著的结果。我们的方法还允许直接将学到的表示与底层源中的符号规则进行比较，并尝试了各种用于解释模型行为和学习动态的技术。通过访问底层真实源，我们的结果显示出不同类别的单词在学习动态方面存在明显的差异和结果。

Oct, 2023

基于计数和神经模型的泛化和混合语言模型

本研究通过定义词汇表上的一组概率分布，动态地计算这些分布上的混合权重，演示如何将基于计数的 n-gram 模型与神经 LM 结合在单个模型框架中，从而创建新颖的混合模型，并证明这些方法的优势。

Jun, 2016

从大型语言模型中提取事件序列知识

利用大型语言模型生成事件序列，填补知识图中的知识空白，并通过模式挖掘和概率事件模型发现有用的和更复杂的结构化知识。

Jan, 2024

语言建模的组合方法

本文提出了一种新的语言模型，通过序列组合树来取代之前基于线性链的假设，消除了结构上的任何假设，利用对比熵作为评估度量标准对新模型进行评估，相较于以往基于递归神经网络的模型，在失真级别上获得了超过 100% 的改进。

Apr, 2016