Sep, 2023

基于 Wav2vec 的言语智能识别与严重程度分类 —— 以口吃为例

TL;DR通过使用预训练的 wav2vec 2.0 模型作为特征提取器,本研究对发音困难症的声学语音信号进行了自动检测和严重程度分类,结果表明使用 wav2vec 模型的第一层嵌入特征在准确度上相较于基线特征(声谱图)提升了 1.23%,在严重程度分类任务中最终层的嵌入特征相较于基线特征(梅尔频率倒谱系数)提升了 10.62%。