基于 Transformer 语言模型和 n-gram 困惑度的文本向量化
本文阐述了困惑度 (PPL) 在生成文本质量评估中存在的问题,如过度强调其在短文本中的不利作用,以及重复文本区间和标点符号对其表现的影响,实验发现困惑度不可靠。最后,讨论了使用语言模型评估文本质量的关键问题。
Oct, 2022
本文研究了自然语言处理中的一个基本问题 —— 模型对输入变化的鲁棒性。通过对主流的词向量嵌入方案(如拼接、TF-IDF 和段落向量)的形式化证明,发现在 Hamming 距离中呈现出 Hölder 或 Lipschitz 鲁棒性。我们提供了数值界限,并证明文档长度对所涉及的常数有影响。这些发现通过一系列数值实例进行了说明。
Mar, 2023
最近的研究表明,大语言模型在处理极长文本方面具有潜力。然而,通过困惑度作为评估指标来评估大语言模型在长文本理解能力方面存在问题,困惑度仅能反映模型对局部信息的建模能力而无法捕捉长距离依赖,因此,仅通过困惑度证明模型可以处理长文本是不合适的。在评估模型的长文本能力时,应当更加注意困惑度的局限性并避免过度依赖。
May, 2024
本文研究神经语言模型的 tokenization 对模型性能评估的作用,并提出用边缘似然进行评估。在使用采样的不同估算器比较后,发现边缘困惑度可以更好地反应模型性能,特别是在领域外数据中能表现出更好的鲁棒性。此外,通过测量 tokeniser 信息熵,结果还显示,边缘困惑度与 tokeniser 不确定性之间存在联系。最后,本文讨论了研究结果对语言模型训练和评估的一些影响。
Sep, 2021
我们提出了一个新的渐进均分特性来解析语言模型生成的大段文本的困惑度,并对该特性提出理论证明。困惑度,作为一个逆似然函数,被广泛用作训练语言模型的性能度量。我们的主要结果表明,由语言模型生成的任何大段文本的对数困惑度必须渐进地收敛到其令牌分布的平均熵。这意味着语言模型只能产生来自 “典型集合” 的输出,我们证明该集合是所有可能的语法正确的输出中一个逐渐变小的子集。我们提供了一个开源语言模型的初步实验结果来支持我们的理论论断。这项工作可能在理解和改进 “AI 检测” 工具方面具有实际应用,对生成模型的独特性、可预测性和创造潜力具有理论意义。
May, 2024
我们发现,LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率,并且对于不太可能出现的序列更为严重,尽管使用更多的训练数据减轻了这种倾向,但这种低估行为还是存在,并且在目标分布熵较低时加剧了这种情况,并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。
Mar, 2022
在语言建模领域中,我们探寻了多种技术的变体或极限,验证单一技术与多种技术的相互作用,将所有技术组合应用在一起,较标准的 Katz 平滑 3 元语言建模方法,我们取得了 38% 至 50% 的困惑度减少,Word 错误率降低 8.9%。
Aug, 2001