语言模型标记器引入了语言之间的不公平性

May, 2023

语言模型标记器引入了语言之间的不公平性

Language Model Tokenizers Introduce Unfairness Between Languages

Aleksandar Petrov, Emanuele La Malfa, Philip H.S. Torr, Adel Bibi

TL;DR研究显示，语言模型在处理不同语言时存在标记化差异，导致部分语言社区无法公平访问商业语言服务、处理时间和网络延迟，并限制了模型学习的上下文，因此建议使用多语种公平标记器来训练未来的语言模型。

Abstract

Recent language models have shown impressive multilingual performance, even when not explicitly trained for it. Despite this, concerns have been raised about the quality of their outputs across different language

language models multilingual performance tokenization disparity multilingually fair tokenizer language communities

发现论文，激发创造

神经机器翻译对多语言分词训练中的语言不平衡的鲁棒性有多强？

本研究分析研究了多语言经过语言不平衡的训练语料库的分词器，并发现在训练过程中，UNK 率和接近字符级别的特征对于下游任务的性能具有预警作用。同时，该研究还将分词器训练的语言采样与模型训练的采样区分开，并指出模型对后者更为敏感。

Apr, 2022

多语言语言建模中的分词影响：评估跨语言词汇分配和重叠

本文提出新的标准以评估子词符号化器中的词汇表示质量和词汇重叠度，并发现跨语言单词表的重叠实际上可能对某些下游任务（如 POS、依赖树标记）产生负面影响，而在命名实体识别和句子级任务（如跨语言检索、NLI）中分享词汇表是有益的。此外，本文还观察到多语种语言模型中特定语言标记的覆盖范围显著影响单词级任务。因此，我们为未来的模型开发人员提供了详细的指导，以选择最适合他们特定应用程序的符号化器。

May, 2023

跨越英语的语言模型公平性：现存问题与挑战

本研究调查了多语言和非英文环境下公平性问题，并强调当前研究的不足之处及因英语环境限制所面临的挑战。作者认为，在构建公平性数据集方面，世界上众多多样化的文化和语言使得实现全面覆盖变得不可行，因此需超越当前仅仅集中在特定维度和类型偏见的数据集驱动方法，以便在不同的语言和文化间实现扩展。

Feb, 2023

各种语言的成本是否相同？商业语言模型时代的 tokenization

这项研究分析了语言模型 API 在 22 种语言中的价格策略的公平性，发现一些支持的语言的使用者在使用中被过度收费且结果更差，试图增加对语言模型 API 价格政策的透明度并鼓励供应商使其更加公平。

May, 2023

你的分词器有多好？多语言语言模型在单语言性能上的表现

通过在九种语言和五种单语言任务的实验中对比预训练的多语言和单语言模型的表现来研究它们之间的差异，结果表明预训练数据规模和专门的单语言分词器对于下游性能同样重要，而对于具有多语言模型词汇表适当表示的语言的性能下降可以忽略不计。使用专门的单语言分词器可以提高几乎每个任务和语言的多语言模型的下游性能。

Dec, 2020

预训练的多语言模型在不同语言间的公平性是否相同？

探讨预训练多语言语言模型的组公平性，通过创建一个新的平行洞察测试实例的多语言数据集（MozArt）及使用人口统计信息来评估三种多语言模型（mBERT，XLM-R 和 mT5），我们发现这三种模型在四种目标语言中表现出不同程度的组不公平性，例如在西班牙语中表现出接近相等的风险，但在德语中表现出高水平的不平等。

Oct, 2022

分词不足：分词的诅咒

大型语言模型存在分词问题，导致对错别字、长度差异和标记内部结构的忽视。本研究通过探究复杂问题解决、标记结构探测和对错别字的抵抗力来系统地调查这些挑战及其对大型语言模型的影响，并展示模型参数缩放与子词规范化对解决这些问题的作用。

Jun, 2024

学习您的标记：用于语言建模的单词汇总分词

这篇论文通过学习词边界将字节 / 字符聚合成词表示，并在主要语言模型中解码个别字符 / 字节，结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好，特别是在稀有词方面达到了 30 倍的效果提升。

Oct, 2023

理解和减轻语言模型中的分词偏差

通过提出一种新颖的算法，我们可以从单词化数据中得到无偏估计，而不需要调整模型。通过 Markov 链设置，我们从标记化语言模型中精准恢复了转换概率。

Jun, 2024

无需分词的多语言预训练模型的多维度评估

综合比较多语言预训练模型的效率时，在考虑内存使用、推理速度和数据健壮性等方面，基于子词的模型仍然是许多场景下更可靠的选择，此为当前研究结果，建议未来的 tokenizer-free 方法在设计和评估模型时也要考虑这些因素。

Oct, 2022