May, 2022

双语端到端自动语音识别:基于字节级子词

TL;DR本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响,并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR,并在英语和普通话口述任务上进行实验,发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2%到 5%。