Jun, 2024

关键词引导的自动语音识别适应

TL;DR通过上下文偏差对 Whisper 模型进行改进,提出了一种优化行话词识别的新方法。采用关键词检测模型,利用 Whisper 编码器表示动态生成的提示来引导解码器。引入了 KG-Whisper 和 KG-Whisper-PT 两种方法来有效引导解码器,并在特定关键词的识别准确率和整体词错误率上取得了显著的改进。在未见过的语言泛化中,与 Whisper 相比,平均词错误率提高了 5.1%。