Oct, 2022

JOIST:一种联合语音和文本流模型用于自动语音识别

TL;DR我们提出 JOIST 算法,使用音频文本配对输入和仅文本未配对输入训练流式级联编码器端到端模型。与以往的工作不同,我们探索了同时训练两种模态的联合训练方法,而不是预训练和微调。此外,我们使用了一种流式端到端模型,并增加了一个数量级的数据量,这些都是与以往工作相比的新颖之处。通过一系列去除研究,我们研究了不同类型的文本建模,包括如何建模文本序列的长度和适当的文本子单词单元表示。我们发现,与未训练文本的模型相比,针对 JOIST 的最佳文本表示方式可以相对提高 4-14% 的 WER,而且我们定量显示 JOIST 仍然具备流式处理的能力,这对用户体验很重要。