Jun, 2024

语音障碍分析:基于 Transformer 的方法

TL;DR声音障碍是显著影响患者生活质量的病理状态。然而,由于病理性声音数据短缺以及用于诊断的录音类型的多样性,对这些病理状态的非侵入性自动诊断仍未得到充分探索。本文提出了一种新颖的解决方案,直接采用在原始声音信号上工作的变压器,并通过合成数据生成和数据增强来解决数据短缺的问题。此外,我们同时考虑了多种录音类型,如句子朗读和持续元音发音,通过采用多模态专家集合来对不同数据类型上的预测进行对齐。在公共和私有数据集上获得的实验结果显示了我们解决方案在障碍检测和分类任务中的有效性,并在现有方法上有了很大的改进。