Jul, 2022

音频 - 文本蕴含的 ASR 错误检测

TL;DR提出了一种基于语音 / 文本内涵的新型端到端 ASR 错误检测方法,该方法通过将音频和对应的文本片段之间的内涵建模为端到端任务,并利用声学编码器和语言编码器来预测内涵,实验结果表明该方法可以有效降低医学术语方面的分类错误率 12% 和 15.4%。