MAGNET：使用自适应基于梯度的分词提高语言模型的跨语言公平性

Jul, 2024

MAGNET：使用自适应基于梯度的分词提高语言模型的跨语言公平性

MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization

Orevaoghene Ahia, Sachin Kumar, Hila Gonen, Valentin Hoffman, Tomasz Limisiewicz...

TL;DRMAGNET通过自适应梯度基础的分词来减少多语言环境下非拉丁字母脚本的过度分段，它利用模型内部的子模块（Tokenizer）学习预测字节标记之间的段边界。通过实验证明，MAGNET不仅能减少分词差异，还能提高语言建模的速度和下游效用。

Abstract

In multilingual settings, non-Latin scripts and low-resource languages are usually disadvantaged in terms of language models' utility, efficiency, and cost. Specifically, previous studies have reported multiple modeling biases that the current →

发现论文，激发创造

高字内复杂度的神经词元分割

提出了一种结合了上下文化词元表示和字符级解码的神经分割模型，对于具有高令牌内部复杂性和极度形态歧义的希伯来语和阿拉伯语等语言，其分割准确性得到了显着提高，并对下游NLP任务的表现进行优化。

Mar, 2022

无需分词的多语言预训练模型的多维度评估

综合比较多语言预训练模型的效率时，在考虑内存使用、推理速度和数据健壮性等方面，基于子词的模型仍然是许多场景下更可靠的选择，此为当前研究结果，建议未来的tokenizer-free方法在设计和评估模型时也要考虑这些因素。

Oct, 2022

70种语言的大规模多语音识别：分词、架构、泛化能力

本文研究了70种语言的大规模多语种ASR模型，并通过优化多重嵌入和输出模型的标记化策略，相对于单一语种模型，实现了13.9%-15.6%的平均WER改进，并展示了其泛化性和零样本学习能力在Multilingual Librispeech 上高达9.5%的WER表现。

Nov, 2022

带有动态Token池化的高效Transformer

通过动态Pooling和自回归机制，使得Transformer模型在其计算资源内的表现更快更准确。

Nov, 2022

MANTa: 高效基于梯度的分词技术用于鲁棒的端到端语言建模

本文介绍了一种名为MANTa的模块，用于自适应神经分词，结果表现出字节级模型的表现和基于子词的模型的速度之间的平衡，并且显式地将序列分段，从而提高了语言模型的鲁棒性。

Dec, 2022

语言模型标记器引入了语言之间的不公平性

研究显示，语言模型在处理不同语言时存在标记化差异，导致部分语言社区无法公平访问商业语言服务、处理时间和网络延迟，并限制了模型学习的上下文，因此建议使用多语种公平标记器来训练未来的语言模型。

May, 2023

mBBC: 探索多语迷宫

多语言语言模型的综合评估：mBERT、XLM-R和GPT-3在具有不同语言环境的各种语言上的性能评估，发现资源可用性对模型性能有重要影响，并且资源可用性、语言家族和脚本类型之间存在复杂关系，为模型选择和部署提供了见解。

Oct, 2023

LLM培训的标记器选择：微不足道还是至关重要？

在大规模预训练语言模型（LLMs）中，我们进行了一项全面研究，探究了分词器选择对下游性能、训练数据集和词汇量的影响。研究发现，分词器的选择可以显著影响模型的下游性能、训练和推理成本，并指出常用的分词器评估指标并不能准确预测模型性能，特别是多语言分词器在词汇量方面需要比英语增加三倍。在训练多语言LLMs时，仅采用英语分词器会导致严重的性能下降和高达68%的额外训练成本，因为其分词词汇表效率低下。

Oct, 2023

加速单语文本生成的多语言语言模型的简单框架

最近大型语言模型的进展不仅在英语中，还在非英语语言中完成了复杂语言任务的执行。然而，大多数语言模型的分词器（如Llama）在训练时采用的是以英语为中心的语料库，往往会在非英语语言中过度分词。针对这个问题，我们的研究引入了一种新颖的框架，旨在加快这些语言的文本生成。此框架预测的语言单元较传统的多语言分词器更大，并且专门针对目标语言进行了定制，从而减少了所需的解码步骤。我们的实证结果表明，与标准解码相比，所提出的框架将生成速度提高了1.9倍，同时在单语任务上保持了预训练多语言模型的性能。

Jan, 2024

理解和减轻语言模型中的分词偏差

通过提出一种新颖的算法，我们可以从单词化数据中得到无偏估计，而不需要调整模型。通过 Markov 链设置，我们从标记化语言模型中精准恢复了转换概率。

Jun, 2024