字节对编码是自动孟加拉语语音识别所需的全部

Jan, 2024

字节对编码是自动孟加拉语语音识别所需的全部

Byte Pair Encoding Is All You Need For Automatic Bengali Speech Recognition

PDF

Ahnaf Mozib Samin

TL;DR通过实验证明，对于孟加拉语，Byte pair encoding (BPE) 是一种在自动语音识别（ASR）中改善识别性能的有效分词方法，较佳的 BPE token 数量为大约 500-1000 个。

Abstract

byte pair encoding (bpe) emerges as an effective tokenization method for tackling the →

byte pair encoding bpe tokenization out-of-vocabulary bengali

发现论文，激发创造

双语端到端自动语音识别：基于字节级子词

本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响，并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR，并在英语和普通话口述任务上进行实验，发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2％到 5％。

May, 2022

Byte Pair Encoding 不适用于语言模型预训练

分析使用不同词汇分割方法，如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响，并比较它们的效果，在任务绩效中发现 unigram 的方法匹配或优于 BPE，建议开发者在预训练时采用 unigram 方法。

Apr, 2020

一种在端到端 ASR 系统中修复分词器词汇大小的成本最小化方法

通过在 LibriSpeech 100 小时数据集上的实验证明，当仔细选择标记数量时，端到端 ASR 系统的性能会有所提升。

Apr, 2024

Scaffold-BPE：用简单而有效的支架符号去除增强字节对编码

Scaffold-BPE 是对原始的 Byte Pair Encoding（BPE）算法的改进，解决了频率不平衡的问题，通过排除低频 Scaffold Tokens 提高了模型训练的效果。

Apr, 2024

字节对编码的形式化视角

通过子模函数，我们将 BPE 形式化为组合优化问题，并证明了迭代贪心版本是最佳合并序列的 1/sigma (mu*)-（1-e^(sigma (mu*)))- 近似，其中 sigma (mu*) 是相对于最佳合并序列 mu * 的总反向曲率。此外，我们优化了朴素算法以实现最佳 BPE。

Jun, 2023

Byte Pair 编码在神经机器翻译中的未登录词效果如何？

本文针对 NMT 中 OOV 问题进行研究，发现尽管 BPE 可在一定程度上处理 OOV，但仍有相当一部分单词翻译错误，特别是涉及语言间距离较远的情况。

Aug, 2022

基于字节级子词的神经机器翻译

本篇论文探讨了一种基于字节级子词（BBPE）的机器翻译模型，该模型比字符词汇表更紧凑且没有超出词汇表的令牌，并显示了与 BPE 相当的性能，BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量，同时使非重叠字符集的语言之间的模型传递成为可能。

Sep, 2019

通过字节对编码学习相关语言之间的可变长度单位

本文研究了使用字节对编码（称为 BPE units）以及拼音音节作为翻译任务基本单元的效果，结果表明，BPE units 作为翻译单元略优于拼音音节单元，并且更适用于非元音书写系统的语言。

Oct, 2016

神经机器翻译中更好的子词划分

本文提出将字节对编码（Byte Pair Encoding）引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制，经实验验证在德英和中英翻译任务中，使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。

Jul, 2018

BPE-Dropout: 简单而有效的子词规范化

本研究提出了一种名为 BPE-dropout 的简单有效的子词规则化方法，通过随机扰动 BPE 的分词过程，在相同的 BPE 框架下生成多个分词方法，使用 BPE-dropout 能够显著提高机器翻译质量，比使用 BPE 和其他子词规则化方法均能够带来更好的效果。

Oct, 2019