字节对编码是自动孟加拉语语音识别所需的全部
本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响,并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR,并在英语和普通话口述任务上进行实验,发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2%到 5%。
May, 2022
分析使用不同词汇分割方法,如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响,并比较它们的效果,在任务绩效中发现 unigram 的方法匹配或优于 BPE,建议开发者在预训练时采用 unigram 方法。
Apr, 2020
通过在 LibriSpeech 100 小时数据集上的实验证明,当仔细选择标记数量时,端到端 ASR 系统的性能会有所提升。
Apr, 2024
Scaffold-BPE 是对原始的 Byte Pair Encoding(BPE)算法的改进,解决了频率不平衡的问题,通过排除低频 Scaffold Tokens 提高了模型训练的效果。
Apr, 2024
通过子模函数,我们将 BPE 形式化为组合优化问题,并证明了迭代贪心版本是最佳合并序列的 1/sigma (mu*)-(1-e^(sigma (mu*)))- 近似,其中 sigma (mu*) 是相对于最佳合并序列 mu * 的总反向曲率。此外,我们优化了朴素算法以实现最佳 BPE。
Jun, 2023
本文针对 NMT 中 OOV 问题进行研究,发现尽管 BPE 可在一定程度上处理 OOV,但仍有相当一部分单词翻译错误,特别是涉及语言间距离较远的情况。
Aug, 2022
本篇论文探讨了一种基于字节级子词(BBPE)的机器翻译模型,该模型比字符词汇表更紧凑且没有超出词汇表的令牌,并显示了与 BPE 相当的性能,BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量,同时使非重叠字符集的语言之间的模型传递成为可能。
Sep, 2019
本文研究了使用字节对编码(称为 BPE units)以及拼音音节作为翻译任务基本单元的效果, 结果表明,BPE units 作为翻译单元略优于拼音音节单元, 并且更适用于非元音书写系统的语言。
Oct, 2016
本文提出将字节对编码(Byte Pair Encoding)引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制,经实验验证在德英和中英翻译任务中,使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。
Jul, 2018
本研究提出了一种名为 BPE-dropout 的简单有效的子词规则化方法,通过随机扰动 BPE 的分词过程,在相同的 BPE 框架下生成多个分词方法,使用 BPE-dropout 能够显著提高机器翻译质量,比使用 BPE 和其他子词规则化方法均能够带来更好的效果。
Oct, 2019