基于 Transformer 语言模型和 n-gram 困惑度的文本向量化

Jul, 2023

基于 Transformer 语言模型和 n-gram 困惑度的文本向量化

Text vectorization via transformer-based language models and n-gram perplexities

Mihailo Škorić

TL;DR该研究提出了一种基于 n-gram 困惑度计算的向量值算法，以替代仅有一个困惑度值的标量困惑度，该算法考虑了概率、困惑度、文本、标记等方面，并将这些值合并为表示输入的单个向量。

Abstract

As the probability (and thus perplexity) of a text is calculated based on the product of the probabilities of individual tokens, it may ha

probability perplexity text token n-gram

发现论文，激发创造

PLM perplexity 不可靠于文本质量评估

本文阐述了困惑度 (PPL) 在生成文本质量评估中存在的问题，如过度强调其在短文本中的不利作用，以及重复文本区间和标点符号对其表现的影响，实验发现困惑度不可靠。最后，讨论了使用语言模型评估文本质量的关键问题。

Oct, 2022

文本向量化器的鲁棒性

本文研究了自然语言处理中的一个基本问题 —— 模型对输入变化的鲁棒性。通过对主流的词向量嵌入方案（如拼接、TF-IDF 和段落向量）的形式化证明，发现在 Hamming 距离中呈现出 Hölder 或 Lipschitz 鲁棒性。我们提供了数值界限，并证明文档长度对所涉及的常数有影响。这些发现通过一系列数值实例进行了说明。

Mar, 2023

能否通过困惑度反映大型语言模型对长篇文本理解的能力？

最近的研究表明，大语言模型在处理极长文本方面具有潜力。然而，通过困惑度作为评估指标来评估大语言模型在长文本理解能力方面存在问题，困惑度仅能反映模型对局部信息的建模能力而无法捕捉长距离依赖，因此，仅通过困惑度证明模型可以处理长文本是不合适的。在评估模型的长文本能力时，应当更加注意困惑度的局限性并避免过度依赖。

May, 2024

有些词比其他词更有价值吗？

该研究提出了两种新的内部评估方法，旨在全面评估语言模型的性能。他们发现，传统的评价方法偏向于高频词汇，而不能全面地评价模型的性能。

Oct, 2020

基于分词边际概率评估语言模型

本文研究神经语言模型的 tokenization 对模型性能评估的作用，并提出用边缘似然进行评估。在使用采样的不同估算器比较后，发现边缘困惑度可以更好地反应模型性能，特别是在领域外数据中能表现出更好的鲁棒性。此外，通过测量 tokeniser 信息熵，结果还显示，边缘困惑度与 tokeniser 不确定性之间存在联系。最后，本文讨论了研究结果对语言模型训练和评估的一些影响。

Sep, 2021

大数定律的奴隶：生成式语言模型中困惑度的渐近等分性质

我们提出了一个新的渐进均分特性来解析语言模型生成的大段文本的困惑度，并对该特性提出理论证明。困惑度，作为一个逆似然函数，被广泛用作训练语言模型的性能度量。我们的主要结果表明，由语言模型生成的任何大段文本的对数困惑度必须渐进地收敛到其令牌分布的平均熵。这意味着语言模型只能产生来自 “典型集合” 的输出，我们证明该集合是所有可能的语法正确的输出中一个逐渐变小的子集。我们提供了一个开源语言模型的初步实验结果来支持我们的理论论断。这项工作可能在理解和改进 “AI 检测” 工具方面具有实际应用，对生成模型的独特性、可预测性和创造潜力具有理论意义。

May, 2024

评估神经语言模型中的分布扭曲

我们发现，LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率，并且对于不太可能出现的序列更为严重，尽管使用更多的训练数据减轻了这种倾向，但这种低估行为还是存在，并且在目标分布熵较低时加剧了这种情况，并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。

Mar, 2022

神经语言模型的结构弱点：被盗概率

本文研究了神经网络语言模型的内部偏差，并证明了嵌入空间中的概率上限与其凸壳边界上的单词相关。

May, 2020

语言建模的一点进展

在语言建模领域中，我们探寻了多种技术的变体或极限，验证单一技术与多种技术的相互作用，将所有技术组合应用在一起，较标准的 Katz 平滑 3 元语言建模方法，我们取得了 38% 至 50% 的困惑度减少，Word 错误率降低 8.9%。

Aug, 2001

计算词语的概率

正确计算字词概率的方法及其对句子理解和词汇优化分析的影响。

Jun, 2024