Jun, 2023

使用说话人表示和自监督上下文嵌入进行口吃检测

TL;DR本研究通过使用预先训练的深度学习模型提取的语音嵌入,探索了使用 ECAPA-TDNN 和 Wav2Vec2.0 模型进行口吃检测任务的音频表示。相对于仅在有限 SEP-28k 数据集上训练的标准口吃检测系统,本研究在多个传统分类器上获得了 12.08%、28.71%、37.9%的相对改进并进一步证明结合两个嵌入和连接多个层的 Wav2Vec2.0 可进一步提高其性能。