Oct, 2023

基于注意力的语音识别系统需要多少上下文?

TL;DR使用超过 30 秒的声学上下文来训练语音识别模型在文献中很少见,并且缺乏深入研究。本文通过对超长的声学和语言模型进行训练和评估的序列长度进行了研究,结果表明使用大约 80 秒的声学上下文进行训练可以相对提高 14.9% 的性能,并且与当前最先进的系统相比,通过长上下文转换器语言模型的系统组合可以得到具有竞争力的结果。