基于字节级子词的神经机器翻译

Sep, 2019

Neural Machine Translation with Byte-Level Subwords

Changhan Wang, Kyunghyun Cho, Jiatao Gu

TL;DR本篇论文探讨了一种基于字节级子词（BBPE）的机器翻译模型，该模型比字符词汇表更紧凑且没有超出词汇表的令牌，并显示了与 BPE 相当的性能，BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量，同时使非重叠字符集的语言之间的模型传递成为可能。

Abstract

Almost all existing machine translation models are built on top of character-based vocabularies: characters, subwords or words. Rare characters from noisy text or character-rich languages such as Japanese and Chinese however can unnecessarily take up →

machine translation byte-level subwords bbpe vocabulary multilingual

发现论文，激发创造

使用字节级子词训练多语言预训练语言模型

本文介绍了使用 Byte-Level BPE 技术训练 NEZHA 多语言预训练语言模型，并通过多语言 NLU 任务验证其性能显着优于 Google 多语言 BERT 和原始 NEZHA 模型。

Jan, 2021

神经机器翻译中更好的子词划分

本文提出将字节对编码（Byte Pair Encoding）引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制，经实验验证在德英和中英翻译任务中，使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。

Jul, 2018

字节级表示在语言建模中的应用

该论文提出了一种新的方法 Byte2Word，通过引入交叉注意力网络建立单词级别的表示，并基于单词级别的隐藏状态进行子词级别的预测，从而实现了更精简的输入嵌入方式，同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。

Nov, 2022

双语端到端自动语音识别：基于字节级子词

本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响，并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR，并在英语和普通话口述任务上进行实验，发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2％到 5％。

May, 2022

神经机器翻译的分割粒度优化

本文提出一种自动调节神经机器翻译中分词粒度的方法，可以在训练的同时引入新的词汇并优化语言分割，最终达到与最优表现相似的结果，并在训练效率和罕见词汇的表现方面带来了改进。

Oct, 2018

不使用嵌入的神经机器翻译

通过实现以字节作为序列的计算机文本的表示，同时将深度学习模型中的嵌入层替换为每个字节的一热表示，可以在不影响模型性能的情况下，将最先进的机器翻译模型推广到字节级别。

Aug, 2020

从词到字：自然语言处理中开放词汇建模和分词的简史

本文通过调研 pre-neural 和 neural era 中的多种技术，探讨自然语言处理中的 “微观结构”（从字节到词组）建模方式是否应采用字符级或字节级处理，或采取分词处理的基于子字的方法，得出结论：没有一种万能的处理方式适用于所有情况，仍需要认真考虑分词对于不同应用场景的重要性。

Dec, 2021

神经机器翻译的本地字节融合

本研究提出了一种基于字节的机器翻译方法 (Local Byte Fusion, LOBEF)，它利用基于 byte-ngram 和单词边界的方法来聚合局部语义信息，经过对多语种翻译、零 - shot 跨语言转移和域自适应的大量实验证明，在多种情况下比传统的基于字节的方法和子词分割技术都有更好的性能表现。

May, 2022

采用子单元的神经机器翻译生僻词

本文提出了一种基于子单词单位的、更简单且更有效的方法来处理翻译中的开放性词汇问题，并通过实验证明了这种方法相较于备用字典模式可以提升该模型的翻译效果。

Aug, 2015

神经机器翻译中基于 BPE 词汇修剪的分析

在这篇论文中，我们研究了阈值词汇裁剪在字节对编码子词分词中的应用，这是一种后处理步骤，可以将罕见的子词替换为其组成的子词。尽管在机器翻译实现中建议删除罕见的子词以减小模型大小并提高模型性能，但我们的实验表明，在各种超参数设置下，词汇裁剪无法提高性能，甚至可能导致严重的性能下降。

Mar, 2024