Byte Pair Encoding 不适用于语言模型预训练

EMNLPApr, 2020

Byte Pair Encoding 不适用于语言模型预训练

Byte Pair Encoding is Suboptimal for Language Model Pretraining

Kaj Bostrom, Greg Durrett

TL;DR分析使用不同词汇分割方法，如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响，并比较它们的效果，在任务绩效中发现 unigram 的方法匹配或优于 BPE，建议开发者在预训练时采用 unigram 方法。

Abstract

The success of pretrained transformer language models (LMs) in natural language processing has led to a wide range of pretraining setups. In particular, these models employ a variety of subword tokenization metho

pretrained transformer language models subword tokenization unigram language modeling task performance morphology

发现论文，激发创造

使用字节级子词训练多语言预训练语言模型

本文介绍了使用 Byte-Level BPE 技术训练 NEZHA 多语言预训练语言模型，并通过多语言 NLU 任务验证其性能显着优于 Google 多语言 BERT 和原始 NEZHA 模型。

Jan, 2021

重新思考分词：为大型语言模型打造更好的分词器

通过追踪分词器从词级到子词级的演变，本研究分析了分词器如何在增强模型适应性的同时控制复杂度方面平衡标记和类型。根据认知科学中的 “最省力原则”，本文提出了一种新的 LLN 分词器 LiB 模型，它可以自主学习由子词、词和多词表达式组成的综合词汇，从而有效减少标记和类型的数量。比较评估显示，LiB 分词器优于现有的词级和 BPE 分词器，为分词器开发提供了创新方法，并提示未来的基于认知科学的分词器可能更为高效。

Mar, 2024

字节对编码是自动孟加拉语语音识别所需的全部

通过实验证明，对于孟加拉语，Byte pair encoding (BPE) 是一种在自动语音识别（ASR）中改善识别性能的有效分词方法，较佳的 BPE token 数量为大约 500-1000 个。

Jan, 2024

分词不仅仅是压缩

通过广泛实验，我们发现较少的令牌并不会导致更好的下游性能，从而对有效的标记化原因的理解产生了怀疑。我们评估了标记化的三个阶段的设计决策，特别强调了预标记化的重要性和使用字节对编码 (BPE) 进行初始化词汇构建的好处。

Feb, 2024

法语医学口罩语言模型中的 tokenization 有多重要？

深入探讨法语生物医学领域中子词标记化的复杂性，并确定可以进行进一步改进的领域，同时分析了包括 BPE 和 SentencePiece 在内的经典标记化算法，并引入了一种将富含形态素的词分割与现有标记化方法整合的原始标记化策略。

Feb, 2024

基于字节级子词的神经机器翻译

本篇论文探讨了一种基于字节级子词（BBPE）的机器翻译模型，该模型比字符词汇表更紧凑且没有超出词汇表的令牌，并显示了与 BPE 相当的性能，BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量，同时使非重叠字符集的语言之间的模型传递成为可能。

Sep, 2019

神经机器翻译中基于 BPE 词汇修剪的分析

在这篇论文中，我们研究了阈值词汇裁剪在字节对编码子词分词中的应用，这是一种后处理步骤，可以将罕见的子词替换为其组成的子词。尽管在机器翻译实现中建议删除罕见的子词以减小模型大小并提高模型性能，但我们的实验表明，在各种超参数设置下，词汇裁剪无法提高性能，甚至可能导致严重的性能下降。

Mar, 2024

神经机器翻译中更好的子词划分

本文提出将字节对编码（Byte Pair Encoding）引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制，经实验验证在德英和中英翻译任务中，使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。

Jul, 2018

英爱转换器式 NMT 的人工评估

该研究评估了超参数设置对基于 Transformer 的神经机器翻译在英语 - 爱尔兰语低资源对中的质量的影响。研究中使用了基于 Byte Pair Encoding (BPE) 和 unigram 方法的 SentencePiece 模型。通过修改层数、评估注意力机制中最佳头数、使用不同的正则化技术等变体，发现使用 16k BPE 子词模型优化的 Transformer 模型表现最佳，相较于基线递归神经网络（RNN）模型，BLEU 分数提高了 7.8 个点，与 Google 翻译相比，该翻译引擎实现了显著提升。此外，还通过定量细粒度手动评估，比较了机器翻译系统的表现。使用多维质量度量中的错误分类法（MQM error taxonomy），探讨了基于 RNN 模型和 Transformer 模型生成的错误类型的人类评估。结果表明，表现最佳的 Transformer 系统在准确性和流畅性错误方面与基于 RNN 的模型相比均有显著降低。

Mar, 2024

从单词到音乐：符号音乐生成中子词分词技术的研究

本文研究了在符号音乐生成中，应用子词分词技术（如 Byte-pair Encoding）对生成歌曲结构和长度的影响，以及与音乐生成质量指标（如结构指标，Pitch Class Entropy 等）之间的关系。结果表明子词分词技术有望改善符号音乐生成质量，尤其是在生成多轨复杂数据时具有广泛的实际应用价值。比较 BPE 和 Unigram 两种方法的结果得出，两种方法均能带来稳定的改进。

Apr, 2023