Oct, 2023

利用基于感知器的序列分类器和通用语音模型检测语音异常

TL;DR我们提出了一种基于感知器的序列分类器,用于检测反映多种神经系统疾病的语音异常。我们将这个分类器与一个训练有素(无监督训练)的通用语音模型(USM)结合起来,该模型在 1200 万小时的多样化音频记录上进行训练。我们的模型将长序列压缩为一组小的与类别相关的潜在表示,并使用分解投影来预测有序输入语音的不同属性。我们的方法的好处是,它允许我们对输入的不同区域进行不同类别的建模,同时具有数据效率。我们在 Mayo Clinic 的手稿语料库上对提出的模型进行了广泛评估。我们的模型的性能优于标准的 Transformer 模型(80.9%)和感知器模型(81.8%),平均准确率达到 83.1%。通过有限的任务特定数据,我们发现预训练是重要的,并且出乎意料的是,预训练与不相关的自动语音识别(ASR)任务也是有益的。中间层的编码提供了声学和语音信息的混合,并且相对于仅使用最终层的编码(83.1% 对比 79.6%),获得了最佳预测结果。这些结果有很大的潜力,并且在进一步的改进后或许可以帮助医生检测语音异常而无需接触高度专业的言语病理学家。