Jun, 2022

数据集划分对口吃检测系统的影响

TL;DR本文研究了不同的数据分割和分割策略对口吃检测系统性能的影响,并使用 wav2vec 2.0 模型和支持矢量机 (SVM) 来检测口吃现象。我们使用 Stuttering Events in Podcasts (SEP-28k) 数据集中的不同非专属和专属分割进行训练和评估,以揭示结果与使用的分区方法的变异性,并证明 SEP-28k 数据集只由很少的演讲者占据,难以评估。为了解决这个问题,我们创建了 SEP-28k-Extended (SEP-28k-E),其中包含 SEP-28k 语料库的半自动生成的演讲者和性别信息,并建议不同的数据分割,每个分割都有助于评估口吃检测方法的其他方面。