Feb, 2024

发现发音障碍语音中的不适当停顿的方法与规模庞大的语音识别技术

TL;DR通过使用自动语音识别 (ASR) 模型将语音转换为带有暂停标签的文本,我们在发音障碍患者的语音中扩展了一个大规模的语音识别模型,实现了对不恰当暂停的检测,该方法通过与言语治疗专家合作建立标注标准以及设计任务来提高检测效果,并引入了一个针对该任务的评估指标来评价结果。