基于分词边际概率评估语言模型

EMNLPSep, 2021

You should evaluate your language model on marginal likelihood over tokenisations

Kris Cao, Laura Rimell

TL;DR本文研究神经语言模型的 tokenization 对模型性能评估的作用，并提出用边缘似然进行评估。在使用采样的不同估算器比较后，发现边缘困惑度可以更好地反应模型性能，特别是在领域外数据中能表现出更好的鲁棒性。此外，通过测量 tokeniser 信息熵，结果还显示，边缘困惑度与 tokeniser 不确定性之间存在联系。最后，本文讨论了研究结果对语言模型训练和评估的一些影响。

Abstract

neural language models typically tokenise input text into sub-word units to achieve an open vocabulary. The standard approach is to use a single canonical tokenisation at both train and test time. We suggest that

neural language models tokenisation marginal likelihood perplexity out-of-domain data

发现论文，激发创造

你需要在可能的 tokenization 上做边缘化吗？

本文研究自回归语言模型中计算字符序列概率的方法，提出了一种基于重要性采样的算法估计边缘概率，并在一系列尖端模型和数据集上进行比较，结果表明在大多数情况下，对边缘化的忽略导致的对数似然差异小于 0.5％，但对于长且复杂的数据则更加明显。

Jun, 2023

通过输入边际化解释自然语言处理模型

本研究提出了一种解决现有解释方法所引发的超出分布问题的方法，其通过将每个标记边缘化来解释情感分析和自然语言推理等 NLP 模型的预测结果。

Oct, 2020

多语言语言建模中的分词影响：评估跨语言词汇分配和重叠

本文提出新的标准以评估子词符号化器中的词汇表示质量和词汇重叠度，并发现跨语言单词表的重叠实际上可能对某些下游任务（如 POS、依赖树标记）产生负面影响，而在命名实体识别和句子级任务（如跨语言检索、NLI）中分享词汇表是有益的。此外，本文还观察到多语种语言模型中特定语言标记的覆盖范围显著影响单词级任务。因此，我们为未来的模型开发人员提供了详细的指导，以选择最适合他们特定应用程序的符号化器。

May, 2023

有些词比其他词更有价值吗？

该研究提出了两种新的内部评估方法，旨在全面评估语言模型的性能。他们发现，传统的评价方法偏向于高频词汇，而不能全面地评价模型的性能。

Oct, 2020

学习您的标记：用于语言建模的单词汇总分词

这篇论文通过学习词边界将字节 / 字符聚合成词表示，并在主要语言模型中解码个别字符 / 字节，结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好，特别是在稀有词方面达到了 30 倍的效果提升。

Oct, 2023

理解和减轻语言模型中的分词偏差

通过提出一种新颖的算法，我们可以从单词化数据中得到无偏估计，而不需要调整模型。通过 Markov 链设置，我们从标记化语言模型中精准恢复了转换概率。

Jun, 2024

你的分词器有多好？多语言语言模型在单语言性能上的表现

通过在九种语言和五种单语言任务的实验中对比预训练的多语言和单语言模型的表现来研究它们之间的差异，结果表明预训练数据规模和专门的单语言分词器对于下游性能同样重要，而对于具有多语言模型词汇表适当表示的语言的性能下降可以忽略不计。使用专门的单语言分词器可以提高几乎每个任务和语言的多语言模型的下游性能。

Dec, 2020

LLM 培训的标记器选择：微不足道还是至关重要？

在大规模预训练语言模型（LLMs）中，我们进行了一项全面研究，探究了分词器选择对下游性能、训练数据集和词汇量的影响。研究发现，分词器的选择可以显著影响模型的下游性能、训练和推理成本，并指出常用的分词器评估指标并不能准确预测模型性能，特别是多语言分词器在词汇量方面需要比英语增加三倍。在训练多语言 LLMs 时，仅采用英语分词器会导致严重的性能下降和高达 68% 的额外训练成本，因为其分词词汇表效率低下。

Oct, 2023

语言模型评估：超越困惑度

我们提出了一个替代方法来量化语言模型学习自然语言的程度：我们询问它们多大程度上与自然语言的统计倾向相匹配。通过分析语言模型生成的文本是否呈现出它们所训练的人类生成文本中存在的统计倾向，提供了一个与显著性测试配对的框架来评估语言模型的拟合程度。我们发现神经语言模型似乎只学会了一部分被考虑的倾向，但与经验性趋势相比，更接近所提出的理论分布（当存在时）。此外，对不同分布的拟合程度高度依赖于模型架构和生成策略。作为具体例子，使用 Nucleus sampling 方式生成的文本比使用标准祖先抽样生成的文本更紧密地遵循自然语言的类型 - 标记关系；LSTMs 生成的文本也非常好地反映了自然语言的长度、停用词和符号分布。

May, 2021

语言模型标记器引入了语言之间的不公平性

研究显示，语言模型在处理不同语言时存在标记化差异，导致部分语言社区无法公平访问商业语言服务、处理时间和网络延迟，并限制了模型学习的上下文，因此建议使用多语种公平标记器来训练未来的语言模型。

May, 2023