从字节开始的多语言处理

Dec, 2015

Multilingual Language Processing From Bytes

Dan Gillick, Cliff Brunk, Oriol Vinyals, Amarnag Subramanya

TL;DR通过基于 LSTM 的 Byte-to-Span 模型，我们能够读取以 byte 形式表示的文本，并输出 [start, length, label] 的 span annotations，由于直接操作 unicode bytes 而非语言特定的单词或字符，所以我们能够用单个模型分析多种语言。这些多语言模型非常紧凑且不需要任何自然语言处理的标准流程（包括分词），因此能够独立运行于原始文本上，并在命名实体识别和词性标注等方面产生类似或更好的结果。

Abstract

We describe an lstm-based model which we call Byte-to-Span (BTS) that reads text as bytes and outputs span annotations of the form [start, length, label] where start positions, lengths, and labels are separate entries in our vocabulary. Because we operate directly on unicode bytes rath

lstm multilingual models named entity recognition byte-based analysis compact models

发现论文，激发创造

双向长短时记忆模型与辅助损失实现的多语言词性标注

本研究采用词、字符和 Unicode 字节嵌入比较 bi-LSTM 和传统的 POS 标注器，在 22 种语言中取得了最优性能，并表明 bi-LSTM 对于训练数据大小和标签污染的敏感度被过高估计。

Apr, 2016

只需 Bytes：使用 Bytes 实现端到端多语言语音识别和合成

本文提出了两个端到端模型：Audio-to-Byte (A2B) 和 Byte-to-Audio (B2A)，用于多语言语音识别和合成。模型的关键是使用 Unicode 字节序列来建模文本，并且通过使用字节代替大的 softmax 函数，不同语言之间可以共享表示。同时通过引入字节表示，作者在单语言和多语言模型的表现中都获得了很好的结果。

Nov, 2018

字节级表示在语言建模中的应用

该论文提出了一种新的方法 Byte2Word，通过引入交叉注意力网络建立单词级别的表示，并基于单词级别的隐藏状态进行子词级别的预测，从而实现了更精简的输入嵌入方式，同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。

Nov, 2022

评估字节和 Wordpiece 级别的模型在大规模多语言语义分析中的应用

本研究研究并比较了一个基于字节的（ByT5）和基于单词片段的（mT5）序列模型在 51 种语言的 MASSIVE 多语种语义分析数据集上的表现，实验结果表明通过使用最新的标签投影方法，机器翻译示例可以显著提高精确度，与在所有语言的黄金数据上训练的模型只有 5 个百分点的差距，并提供了有关 ByT5 的跨语言转移及其相对于 mT5 在所有参数大小上的各自表现的见解。

Dec, 2022

学习您的标记：用于语言建模的单词汇总分词

这篇论文通过学习词边界将字节 / 字符聚合成词表示，并在主要语言模型中解码个别字符 / 字节，结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好，特别是在稀有词方面达到了 30 倍的效果提升。

Oct, 2023

双语端到端自动语音识别：基于字节级子词

本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响，并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR，并在英语和普通话口述任务上进行实验，发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2％到 5％。

May, 2022

基于字节级子词的神经机器翻译

本篇论文探讨了一种基于字节级子词（BBPE）的机器翻译模型，该模型比字符词汇表更紧凑且没有超出词汇表的令牌，并显示了与 BPE 相当的性能，BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量，同时使非重叠字符集的语言之间的模型传递成为可能。

Sep, 2019

ByT5: 面向预训练字节到字节模型的无令牌未来

本文研究了基于字节级别文本的 Transformer 架构，相比于基于词或子词的标准模型，该模型可处理任何语言的文本，更加稳健且精度更高，并开源了基于 T5 架构的预训练模型及所有实验所用代码和数据。

May, 2021

使用字节级子词训练多语言预训练语言模型

本文介绍了使用 Byte-Level BPE 技术训练 NEZHA 多语言预训练语言模型，并通过多语言 NLU 任务验证其性能显着优于 Google 多语言 BERT 和原始 NEZHA 模型。

Jan, 2021

神经机器翻译的本地字节融合

本研究提出了一种基于字节的机器翻译方法 (Local Byte Fusion, LOBEF)，它利用基于 byte-ngram 和单词边界的方法来聚合局部语义信息，经过对多语种翻译、零 - shot 跨语言转移和域自适应的大量实验证明，在多种情况下比传统的基于字节的方法和子词分割技术都有更好的性能表现。

May, 2022