Sep, 2024

增强自动语音识别模型的语音不流畅检测

TL;DR本研究解决了现有自动语音识别(ASR)模型在识别对话和自发语音中的不流畅现象时面临的挑战。我们提出了一种基于连接时序分类(CTC)算法的改进强制对齐方法,同时开发了分类模型用于检测不流畅语音的时间间隔,最终取得了81.62%的准确率和80.07%的F1分数,显示出该方法在后续任务中的潜在应用价值。