大数定律的奴隶：生成式语言模型中困惑度的渐近等分性质

May, 2024

大数定律的奴隶：生成式语言模型中困惑度的渐近等分性质

Slaves to the Law of Large Numbers: An Asymptotic Equipartition Property for Perplexity in Generative Language Models

Raghu Mudumbai, Tyler Bell

TL;DR我们提出了一个新的渐进均分特性来解析语言模型生成的大段文本的困惑度，并对该特性提出理论证明。困惑度，作为一个逆似然函数，被广泛用作训练语言模型的性能度量。我们的主要结果表明，由语言模型生成的任何大段文本的对数困惑度必须渐进地收敛到其令牌分布的平均熵。这意味着语言模型只能产生来自 “典型集合” 的输出，我们证明该集合是所有可能的语法正确的输出中一个逐渐变小的子集。我们提供了一个开源语言模型的初步实验结果来支持我们的理论论断。这项工作可能在理解和改进 “AI 检测” 工具方面具有实际应用，对生成模型的独特性、可预测性和创造潜力具有理论意义。

Abstract

We propose a new asymptotic equipartition property for the perplexity of a large piece of text generated by a language model and present t

asymptotic equipartition property perplexity language model token distributions ai detection

发现论文，激发创造

评估神经语言模型中的分布扭曲

我们发现，LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率，并且对于不太可能出现的序列更为严重，尽管使用更多的训练数据减轻了这种倾向，但这种低估行为还是存在，并且在目标分布熵较低时加剧了这种情况，并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。

Mar, 2022

能否通过困惑度反映大型语言模型对长篇文本理解的能力？

最近的研究表明，大语言模型在处理极长文本方面具有潜力。然而，通过困惑度作为评估指标来评估大语言模型在长文本理解能力方面存在问题，困惑度仅能反映模型对局部信息的建模能力而无法捕捉长距离依赖，因此，仅通过困惑度证明模型可以处理长文本是不合适的。在评估模型的长文本能力时，应当更加注意困惑度的局限性并避免过度依赖。

May, 2024

大型语言模型的时间箭头

我们通过时间方向性的角度研究自回归大规模语言模型的概率建模，经验性发现这类模型在自然语言建模方面存在时间上的非对称性：在预测下一个标记和预测上一个标记时的平均对数困惑度存在差异。这种差异在多个模式（语言、模型大小、训练时间等）上既微妙又非常一致。从信息论的角度来看，理论上认为不应该存在这种差异。我们提供了一个理论框架，解释了稀疏性和计算复杂性考虑如何导致这种非对称性，并概述了我们结果带来的一些新的研究方向。

Jan, 2024

语言模型评估：超越困惑度

我们提出了一个替代方法来量化语言模型学习自然语言的程度：我们询问它们多大程度上与自然语言的统计倾向相匹配。通过分析语言模型生成的文本是否呈现出它们所训练的人类生成文本中存在的统计倾向，提供了一个与显著性测试配对的框架来评估语言模型的拟合程度。我们发现神经语言模型似乎只学会了一部分被考虑的倾向，但与经验性趋势相比，更接近所提出的理论分布（当存在时）。此外，对不同分布的拟合程度高度依赖于模型架构和生成策略。作为具体例子，使用 Nucleus sampling 方式生成的文本比使用标准祖先抽样生成的文本更紧密地遵循自然语言的类型 - 标记关系；LSTMs 生成的文本也非常好地反映了自然语言的长度、停用词和符号分布。

May, 2021

计算词语的概率

正确计算字词概率的方法及其对句子理解和词汇优化分析的影响。

Jun, 2024

一种基于最大似然方法的统一分布性能优化估计

利用插值最大似然估计（PML），可以很好地估计支持大小、覆盖区域、熵和接近均匀分布等数据科学中的对称性属性。

Nov, 2016

限制生成模型的测试对数似然

研究提出了一种更高效的密度估计方法，从而解决了一些复杂的生成学习算法中难以估计模型质量的问题，并证明其提供了真实测试对数似然的下界和无偏估计，同时还提出了一种偏差估计的变体，可以在有限的样本数下可靠地用于模型比较。

Nov, 2013

自回归之火：通过它们所训练解决的问题来理解大型语言模型

大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张，为了全面理解这些系统，我们需要考虑它们在训练中解决的问题：互联网文本的下一个词预测。通过认识到这个任务所带来的压力，我们可以对大语言模型采用的策略进行预测，从而推断它们的成功或失败。这种方法，我们称之为目的论方法，使我们能够确定三个因素，我们假设这些因素会影响大语言模型的准确性：执行任务的概率、目标输出的概率和提供的输入的概率。我们预测，当这些概率较高时，大语言模型的准确性会更高，而当概率较低时，即使在确定性环境下，概率也不应该起作用。为了验证我们的预测，我们对两个大语言模型（GPT-3.5 和 GPT-4）进行了十一项任务的评估，我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下，实验揭示了令人惊讶的失效模式。例如，当输出是高概率单词序列时，GPT-4 解码简单密码的准确率为 51%，但当输出是低概率时，准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说，我们得出结论，我们不应该把大语言模型评估为人类，而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。

Sep, 2023

语言建模的组合方法

本文提出了一种新的语言模型，通过序列组合树来取代之前基于线性链的假设，消除了结构上的任何假设，利用对比熵作为评估度量标准对新模型进行评估，相较于以往基于递归神经网络的模型，在失真级别上获得了超过 100% 的改进。

Apr, 2016

透明、来源：评估和解释有真实分布访问的语言模型

我们提出了一种使用人工制造的类似语言的数据来训练、评估和解释神经语言模型的设置。使用大规模概率语法（基于状态拆分的 PCFGs）生成数据，该语法源自大型自然语言语料库，但也可完全控制生成过程。通过比较神经语言建模架构和训练目标对可获取困惑度下界的逼近程度的差异，我们得出了显著的结果。我们的方法还允许直接将学到的表示与底层源中的符号规则进行比较，并尝试了各种用于解释模型行为和学习动态的技术。通过访问底层真实源，我们的结果显示出不同类别的单词在学习动态方面存在明显的差异和结果。

Oct, 2023