基于字节级子词的神经机器翻译
本文介绍了使用 Byte-Level BPE 技术训练 NEZHA 多语言预训练语言模型,并通过多语言 NLU 任务验证其性能显着优于 Google 多语言 BERT 和原始 NEZHA 模型。
Jan, 2021
本文提出将字节对编码(Byte Pair Encoding)引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制,经实验验证在德英和中英翻译任务中,使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。
Jul, 2018
该论文提出了一种新的方法 Byte2Word,通过引入交叉注意力网络建立单词级别的表示,并基于单词级别的隐藏状态进行子词级别的预测,从而实现了更精简的输入嵌入方式,同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。
Nov, 2022
本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响,并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR,并在英语和普通话口述任务上进行实验,发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2%到 5%。
May, 2022
本文提出一种自动调节神经机器翻译中分词粒度的方法,可以在训练的同时引入新的词汇并优化语言分割,最终达到与最优表现相似的结果,并在训练效率和罕见词汇的表现方面带来了改进。
Oct, 2018
通过实现以字节作为序列的计算机文本的表示,同时将深度学习模型中的嵌入层替换为每个字节的一热表示,可以在不影响模型性能的情况下,将最先进的机器翻译模型推广到字节级别。
Aug, 2020
本文通过调研 pre-neural 和 neural era 中的多种技术,探讨自然语言处理中的 “微观结构”(从字节到词组)建模方式是否应采用字符级或字节级处理,或采取分词处理的基于子字的方法,得出结论:没有一种万能的处理方式适用于所有情况,仍需要认真考虑分词对于不同应用场景的重要性。
Dec, 2021
本研究提出了一种基于字节的机器翻译方法 (Local Byte Fusion, LOBEF),它利用基于 byte-ngram 和单词边界的方法来聚合局部语义信息,经过对多语种翻译、零 - shot 跨语言转移和域自适应的大量实验证明,在多种情况下比传统的基于字节的方法和子词分割技术都有更好的性能表现。
May, 2022
在这篇论文中,我们研究了阈值词汇裁剪在字节对编码子词分词中的应用,这是一种后处理步骤,可以将罕见的子词替换为其组成的子词。尽管在机器翻译实现中建议删除罕见的子词以减小模型大小并提高模型性能,但我们的实验表明,在各种超参数设置下,词汇裁剪无法提高性能,甚至可能导致严重的性能下降。
Mar, 2024