只需 Bytes：使用 Bytes 实现端到端多语言语音识别和合成

Nov, 2018

只需 Bytes：使用 Bytes 实现端到端多语言语音识别和合成

Bytes are All You Need: End-to-End Multilingual Speech Recognition and Synthesis with Bytes

Bo Li, Yu Zhang, Tara Sainath, Yonghui Wu, William Chan

TL;DR本文提出了两个端到端模型：Audio-to-Byte (A2B) 和 Byte-to-Audio (B2A)，用于多语言语音识别和合成。模型的关键是使用 Unicode 字节序列来建模文本，并且通过使用字节代替大的 softmax 函数，不同语言之间可以共享表示。同时通过引入字节表示，作者在单语言和多语言模型的表现中都获得了很好的结果。

Abstract

We present two end-to-end models: Audio-to-Byte (A2B) and Byte-to-Audio (B2A), for multilingual speech recognition and synthesis. Prior work has predominantly used characters, sub-words or words as the unit of ch

multilingual speech recognition byte representations end-to-end models utf-8 speech synthesis

发现论文，激发创造

双语端到端自动语音识别：基于字节级子词

本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响，并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR，并在英语和普通话口述任务上进行实验，发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2％到 5％。

May, 2022

优化端到端自动语音识别的字节级表示

我们提出了一种对字节级表示进行优化的新方法，通过使用自编码器和向量量化，在自动语音识别中实现更好的准确性。

Jun, 2024

从字节开始的多语言处理

通过基于 LSTM 的 Byte-to-Span 模型，我们能够读取以 byte 形式表示的文本，并输出 [start, length, label] 的 span annotations，由于直接操作 unicode bytes 而非语言特定的单词或字符，所以我们能够用单个模型分析多种语言。这些多语言模型非常紧凑且不需要任何自然语言处理的标准流程（包括分词），因此能够独立运行于原始文本上，并在命名实体识别和词性标注等方面产生类似或更好的结果。

Dec, 2015

基于字节级子词的神经机器翻译

本篇论文探讨了一种基于字节级子词（BBPE）的机器翻译模型，该模型比字符词汇表更紧凑且没有超出词汇表的令牌，并显示了与 BPE 相当的性能，BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量，同时使非重叠字符集的语言之间的模型传递成为可能。

Sep, 2019

基于流式端到端模型的大规模多语言语音识别

本文介绍了一种使用条件向量和针对语言的适配器层结合的多语言端到端模型，取得了比单语言模型和传统模型都更低的语音识别误差率。

Sep, 2019

字节级表示在语言建模中的应用

该论文提出了一种新的方法 Byte2Word，通过引入交叉注意力网络建立单词级别的表示，并基于单词级别的隐藏状态进行子词级别的预测，从而实现了更精简的输入嵌入方式，同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。

Nov, 2022

神经机器翻译的本地字节融合

本研究提出了一种基于字节的机器翻译方法 (Local Byte Fusion, LOBEF)，它利用基于 byte-ngram 和单词边界的方法来聚合局部语义信息，经过对多语种翻译、零 - shot 跨语言转移和域自适应的大量实验证明，在多种情况下比传统的基于字节的方法和子词分割技术都有更好的性能表现。

May, 2022

ByT5: 面向预训练字节到字节模型的无令牌未来

本文研究了基于字节级别文本的 Transformer 架构，相比于基于词或子词的标准模型，该模型可处理任何语言的文本，更加稳健且精度更高，并开源了基于 T5 架构的预训练模型及所有实验所用代码和数据。

May, 2021

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

评估字节和 Wordpiece 级别的模型在大规模多语言语义分析中的应用

本研究研究并比较了一个基于字节的（ByT5）和基于单词片段的（mT5）序列模型在 51 种语言的 MASSIVE 多语种语义分析数据集上的表现，实验结果表明通过使用最新的标签投影方法，机器翻译示例可以显著提高精确度，与在所有语言的黄金数据上训练的模型只有 5 个百分点的差距，并提供了有关 ByT5 的跨语言转移及其相对于 mT5 在所有参数大小上的各自表现的见解。

Dec, 2022