ByT5: 面向预训练字节到字节模型的无令牌未来

ACLMay, 2021

ByT5: 面向预训练字节到字节模型的无令牌未来

ByT5: Towards a token-free future with pre-trained byte-to-byte models

Linting Xue, Aditya Barua, Noah Constant, Rami Al-Rfou, Sharan Narang...

TL;DR本文研究了基于字节级别文本的 Transformer 架构，相比于基于词或子词的标准模型，该模型可处理任何语言的文本，更加稳健且精度更高，并开源了基于 T5 架构的预训练模型及所有实验所用代码和数据。

Abstract

Most widely-used pre-trained language models operate on sequences of tokens corresponding to word or subword units. By comparison, token-free models that operate directly on raw text (bytes or characters) have ma

pre-trained language models token-free models byte-level models transformer architecture robustness

发现论文，激发创造

SpaceByte：大规模语言模型中消除分词的研究

提出了一种新颖的字节级解码器架构 SpaceByte，通过在层次结构中插入更大的 Transformer 块对字节级别和子词级别语言模型建模的性能差距进行优化，通过在特定的字节后插入这些更大块，如空格字符，来提高性能。实验结果显示，在固定的计算资源下，SpaceByte 的性能优于其他字节级架构，大致与分词的 Transformer 架构相匹配。

Apr, 2024

字节级表示在语言建模中的应用

该论文提出了一种新的方法 Byte2Word，通过引入交叉注意力网络建立单词级别的表示，并基于单词级别的隐藏状态进行子词级别的预测，从而实现了更精简的输入嵌入方式，同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。

Nov, 2022

学习您的标记：用于语言建模的单词汇总分词

这篇论文通过学习词边界将字节 / 字符聚合成词表示，并在主要语言模型中解码个别字符 / 字节，结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好，特别是在稀有词方面达到了 30 倍的效果提升。

Oct, 2023

不使用嵌入的神经机器翻译

通过实现以字节作为序列的计算机文本的表示，同时将深度学习模型中的嵌入层替换为每个字节的一热表示，可以在不影响模型性能的情况下，将最先进的机器翻译模型推广到字节级别。

Aug, 2020

从词到字：自然语言处理中开放词汇建模和分词的简史

本文通过调研 pre-neural 和 neural era 中的多种技术，探讨自然语言处理中的 “微观结构”（从字节到词组）建模方式是否应采用字符级或字节级处理，或采取分词处理的基于子字的方法，得出结论：没有一种万能的处理方式适用于所有情况，仍需要认真考虑分词对于不同应用场景的重要性。

Dec, 2021

神经机器翻译的本地字节融合

本研究提出了一种基于字节的机器翻译方法 (Local Byte Fusion, LOBEF)，它利用基于 byte-ngram 和单词边界的方法来聚合局部语义信息，经过对多语种翻译、零 - shot 跨语言转移和域自适应的大量实验证明，在多种情况下比传统的基于字节的方法和子词分割技术都有更好的性能表现。

May, 2022

Byte Pair Encoding 不适用于语言模型预训练

分析使用不同词汇分割方法，如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响，并比较它们的效果，在任务绩效中发现 unigram 的方法匹配或优于 BPE，建议开发者在预训练时采用 unigram 方法。

Apr, 2020

无需分词的多语言预训练模型的多维度评估

综合比较多语言预训练模型的效率时，在考虑内存使用、推理速度和数据健壮性等方面，基于子词的模型仍然是许多场景下更可靠的选择，此为当前研究结果，建议未来的 tokenizer-free 方法在设计和评估模型时也要考虑这些因素。

Oct, 2022

从字符到词语：分层预训练语言模型用于开放词汇语言理解

该研究引入了一种新颖的开放词汇语言模型，包含两个层次：词级和序列级，并通过对字符的表示以及全局的序列级别上下文调整，使模型直接处理字符序列，而不是子词或词级别的词汇表，取得了比强基准表现更好的效果，并且具有文本破坏和域移位的鲁棒性。

May, 2023

评估字节和 Wordpiece 级别的模型在大规模多语言语义分析中的应用

本研究研究并比较了一个基于字节的（ByT5）和基于单词片段的（mT5）序列模型在 51 种语言的 MASSIVE 多语种语义分析数据集上的表现，实验结果表明通过使用最新的标签投影方法，机器翻译示例可以显著提高精确度，与在所有语言的黄金数据上训练的模型只有 5 个百分点的差距，并提供了有关 ByT5 的跨语言转移及其相对于 mT5 在所有参数大小上的各自表现的见解。

Dec, 2022