这篇论文通过学习词边界将字节 / 字符聚合成词表示,并在主要语言模型中解码个别字符 / 字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好,特别是在稀有词方面达到了 30 倍的效果提升。
Oct, 2023
本篇论文探讨了一种基于字节级子词(BBPE)的机器翻译模型,该模型比字符词汇表更紧凑且没有超出词汇表的令牌,并显示了与 BPE 相当的性能,BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量,同时使非重叠字符集的语言之间的模型传递成为可能。
Sep, 2019
本文通过调研 pre-neural 和 neural era 中的多种技术,探讨自然语言处理中的 “微观结构”(从字节到词组)建模方式是否应采用字符级或字节级处理,或采取分词处理的基于子字的方法,得出结论:没有一种万能的处理方式适用于所有情况,仍需要认真考虑分词对于不同应用场景的重要性。
Dec, 2021
本文研究了基于字节级别文本的 Transformer 架构,相比于基于词或子词的标准模型,该模型可处理任何语言的文本,更加稳健且精度更高,并开源了基于 T5 架构的预训练模型及所有实验所用代码和数据。
May, 2021
通过实现以字节作为序列的计算机文本的表示,同时将深度学习模型中的嵌入层替换为每个字节的一热表示,可以在不影响模型性能的情况下,将最先进的机器翻译模型推广到字节级别。
Aug, 2020
本研究提出了一种基于字节的机器翻译方法 (Local Byte Fusion, LOBEF),它利用基于 byte-ngram 和单词边界的方法来聚合局部语义信息,经过对多语种翻译、零 - shot 跨语言转移和域自适应的大量实验证明,在多种情况下比传统的基于字节的方法和子词分割技术都有更好的性能表现。
May, 2022
该研究引入了一种新颖的开放词汇语言模型,包含两个层次:词级和序列级,并通过对字符的表示以及全局的序列级别上下文调整,使模型直接处理字符序列,而不是子词或词级别的词汇表,取得了比强基准表现更好的效果,并且具有文本破坏和域移位的鲁棒性。
May, 2023
提出了一种新颖的字节级解码器架构 SpaceByte,通过在层次结构中插入更大的 Transformer 块对字节级别和子词级别语言模型建模的性能差距进行优化,通过在特定的字节后插入这些更大块,如空格字符,来提高性能。实验结果显示,在固定的计算资源下,SpaceByte 的性能优于其他字节级架构,大致与分词的 Transformer 架构相匹配。
Apr, 2024
本文介绍了使用 Byte-Level BPE 技术训练 NEZHA 多语言预训练语言模型,并通过多语言 NLU 任务验证其性能显着优于 Google 多语言 BERT 和原始 NEZHA 模型。
Jan, 2021
本研究研究并比较了一个基于字节的(ByT5)和基于单词片段的(mT5)序列模型在 51 种语言的 MASSIVE 多语种语义分析数据集上的表现,实验结果表明通过使用最新的标签投影方法,机器翻译示例可以显著提高精确度,与在所有语言的黄金数据上训练的模型只有 5 个百分点的差距,并提供了有关 ByT5 的跨语言转移及其相对于 mT5 在所有参数大小上的各自表现的见解。
Dec, 2022