使用字节级子词训练多语言预训练语言模型

Jan, 2021

使用字节级子词训练多语言预训练语言模型

Training Multilingual Pre-trained Language Model with Byte-level Subwords

Junqiu Wei, Qun Liu, Yinpeng Guo, Xin Jiang

TL;DR本文介绍了使用 Byte-Level BPE 技术训练 NEZHA 多语言预训练语言模型，并通过多语言 NLU 任务验证其性能显着优于 Google 多语言 BERT 和原始 NEZHA 模型。

Abstract

The pre-trained language models have achieved great successes in various natural language understanding (NLU) tasks due to its capacity to capture the deep contextualized information in text by pre-training on large-scale corpora. One of the fundamental components in →

pre-trained language models multilingual models byte-level bpe nezha nlu tasks

发现论文，激发创造

基于字节级子词的神经机器翻译

本篇论文探讨了一种基于字节级子词（BBPE）的机器翻译模型，该模型比字符词汇表更紧凑且没有超出词汇表的令牌，并显示了与 BPE 相当的性能，BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量，同时使非重叠字符集的语言之间的模型传递成为可能。

Sep, 2019

Byte Pair Encoding 不适用于语言模型预训练

分析使用不同词汇分割方法，如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响，并比较它们的效果，在任务绩效中发现 unigram 的方法匹配或优于 BPE，建议开发者在预训练时采用 unigram 方法。

Apr, 2020

双语端到端自动语音识别：基于字节级子词

本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响，并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR，并在英语和普通话口述任务上进行实验，发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2％到 5％。

May, 2022

为新语言扩展多语预训练模型的子词模型

本文研究通过添加新的 Subwords 到 SentencePiece tokenizer 来扩展多语言预训练模型到新语言 (Inuktitut) 并应用于英文到 Inuktitut 翻译。

Nov, 2022

MonoByte：单语字节级语言模型池

本研究发布了 10 个在相同配置下严格预训练的单语模型，它们是基于字节的，不需要分词，可以消除未见标记嵌入的问题，并且可以在不同文字脚本的语言中尝试更广泛的跨语言实验，通过 QA 和 NLI 任务的实验证明，这些单语模型的性能与多语言模型相当，可以加强我们对语言模型跨语言可迁移性的理解。

Sep, 2022

神经机器翻译中更好的子词划分

本文提出将字节对编码（Byte Pair Encoding）引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制，经实验验证在德英和中英翻译任务中，使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。

Jul, 2018

字节级表示在语言建模中的应用

该论文提出了一种新的方法 Byte2Word，通过引入交叉注意力网络建立单词级别的表示，并基于单词级别的隐藏状态进行子词级别的预测，从而实现了更精简的输入嵌入方式，同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。

Nov, 2022

神经机器翻译的分割粒度优化

本文提出一种自动调节神经机器翻译中分词粒度的方法，可以在训练的同时引入新的词汇并优化语言分割，最终达到与最优表现相似的结果，并在训练效率和罕见词汇的表现方面带来了改进。

Oct, 2018

为您的文本表示模型加点爱：巴斯克语的案例

本篇论文探讨使用大型巴斯克语语料库训练的 FastText 词向量、FLAIR 和 BERT 语言模型，在话题分类、情感分类、词性标注和实体识别等下游 NLP 任务中的表现优于公开版本，从而在这些任务中取得了最新的技术成果，所有标准和模型都可公开获取。

Mar, 2020

神经机器翻译中目标侧词形变化建模

本文提出了一个简单的方法来解决 NMT 系统处理大词汇量时的问题，该方法是训练系统生成单词的词元和丰富的词性标记，然后进行确定性生成步骤，应用于英语 - 捷克语和英语 - 德语翻译方案中，获得了改进。

Jul, 2017