双语端到端自动语音识别：基于字节级子词

May, 2022

双语端到端自动语音识别：基于字节级子词

Bilingual End-to-End ASR with Byte-Level Subwords

Liuhui Deng, Roger Hsiao, Arnab Ghoshal

TL;DR本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响，并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR，并在英语和普通话口述任务上进行实验，发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2％到 5％。

Abstract

In this paper, we investigate how the output representation of an end-to-end neural network affects multilingual automatic speech recognition

neural network multilingual automatic speech recognition bbpe bilingual

发现论文，激发创造

优化端到端自动语音识别的字节级表示

我们提出了一种对字节级表示进行优化的新方法，通过使用自编码器和向量量化，在自动语音识别中实现更好的准确性。

Jun, 2024

基于字节级子词的神经机器翻译

本篇论文探讨了一种基于字节级子词（BBPE）的机器翻译模型，该模型比字符词汇表更紧凑且没有超出词汇表的令牌，并显示了与 BPE 相当的性能，BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量，同时使非重叠字符集的语言之间的模型传递成为可能。

Sep, 2019

只需 Bytes：使用 Bytes 实现端到端多语言语音识别和合成

本文提出了两个端到端模型：Audio-to-Byte (A2B) 和 Byte-to-Audio (B2A)，用于多语言语音识别和合成。模型的关键是使用 Unicode 字节序列来建模文本，并且通过使用字节代替大的 softmax 函数，不同语言之间可以共享表示。同时通过引入字节表示，作者在单语言和多语言模型的表现中都获得了很好的结果。

Nov, 2018

字节对编码是自动孟加拉语语音识别所需的全部

通过实验证明，对于孟加拉语，Byte pair encoding (BPE) 是一种在自动语音识别（ASR）中改善识别性能的有效分词方法，较佳的 BPE token 数量为大约 500-1000 个。

Jan, 2024

使用字节级子词训练多语言预训练语言模型

本文介绍了使用 Byte-Level BPE 技术训练 NEZHA 多语言预训练语言模型，并通过多语言 NLU 任务验证其性能显着优于 Google 多语言 BERT 和原始 NEZHA 模型。

Jan, 2021

通过字节对编码学习相关语言之间的可变长度单位

本文研究了使用字节对编码（称为 BPE units）以及拼音音节作为翻译任务基本单元的效果，结果表明，BPE units 作为翻译单元略优于拼音音节单元，并且更适用于非元音书写系统的语言。

Oct, 2016

神经机器翻译中更好的子词划分

本文提出将字节对编码（Byte Pair Encoding）引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制，经实验验证在德英和中英翻译任务中，使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。

Jul, 2018

端到端同时语音翻译解码策略的实证研究

本文提出了一种针对端到端同时语音翻译的解码策略，利用线下训练的端到端模型，并对两种语言对进行了实证研究，探讨了不同的输出令牌粒度以及在不同延迟情况下控制 BLEU/Average Lagging 平衡的方法，效果良好。

Mar, 2021

使用词级 N-Gram 语言模型改进普通话端到端语音识别

本研究提出了一种新型的解码算法，可以结合外部语言模型，构建单词级别的 lattice，用于提高语音识别的表现，并在 Aishell-1 和 Aishell-2 的数据集上取得了最优结果。

Jan, 2022

Byte Pair Encoding 不适用于语言模型预训练

分析使用不同词汇分割方法，如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响，并比较它们的效果，在任务绩效中发现 unigram 的方法匹配或优于 BPE，建议开发者在预训练时采用 unigram 方法。

Apr, 2020