Mar, 2023

面向特定领域语音识别的深度学习系统

TL;DR使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型,提出了基于领域的语音自动识别系统,并通过半监督机器注释的方式收集领域特定的数据,研究结果表明,该系统即使在具有更高的字词错误率的情况下,性能仍优于商业自动语音识别系统,且在人工转录的结果上也呈现出类似的效果。同时,也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。