双语端到端自动语音识别:基于字节级子词
本篇论文探讨了一种基于字节级子词(BBPE)的机器翻译模型,该模型比字符词汇表更紧凑且没有超出词汇表的令牌,并显示了与 BPE 相当的性能,BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量,同时使非重叠字符集的语言之间的模型传递成为可能。
Sep, 2019
本文提出了两个端到端模型:Audio-to-Byte (A2B) 和 Byte-to-Audio (B2A),用于多语言语音识别和合成。模型的关键是使用 Unicode 字节序列来建模文本,并且通过使用字节代替大的 softmax 函数,不同语言之间可以共享表示。同时通过引入字节表示,作者在单语言和多语言模型的表现中都获得了很好的结果。
Nov, 2018
通过实验证明,对于孟加拉语,Byte pair encoding (BPE) 是一种在自动语音识别(ASR)中改善识别性能的有效分词方法,较佳的 BPE token 数量为大约 500-1000 个。
Jan, 2024
本文介绍了使用 Byte-Level BPE 技术训练 NEZHA 多语言预训练语言模型,并通过多语言 NLU 任务验证其性能显着优于 Google 多语言 BERT 和原始 NEZHA 模型。
Jan, 2021
本文研究了使用字节对编码(称为 BPE units)以及拼音音节作为翻译任务基本单元的效果, 结果表明,BPE units 作为翻译单元略优于拼音音节单元, 并且更适用于非元音书写系统的语言。
Oct, 2016
本文提出将字节对编码(Byte Pair Encoding)引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制,经实验验证在德英和中英翻译任务中,使用 accessor variety 和 description length gain 进行优化能在不同程度上优于基线频率加权方案。
Jul, 2018
本文提出了一种针对端到端同时语音翻译的解码策略,利用线下训练的端到端模型,并对两种语言对进行了实证研究,探讨了不同的输出令牌粒度以及在不同延迟情况下控制 BLEU/Average Lagging 平衡的方法,效果良好。
Mar, 2021
本研究提出了一种新型的解码算法,可以结合外部语言模型,构建单词级别的 lattice,用于提高语音识别的表现,并在 Aishell-1 和 Aishell-2 的数据集上取得了最优结果。
Jan, 2022
分析使用不同词汇分割方法,如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响,并比较它们的效果,在任务绩效中发现 unigram 的方法匹配或优于 BPE,建议开发者在预训练时采用 unigram 方法。
Apr, 2020