走向客观和可解释的语音障碍评估:基于 CNN 和 Transformer 的模型的比较分析
自动语音质量评估中,由于数据稀缺,大多数研究仅在二元分类等简单任务上取得良好结果。本文提出了一种新的方法,通过采用预训练的 Wav2Vec2 架构作为语音评估中的特征提取器,将学习系统从片段级别提升至音频级别,从而建立了一个新的基准,使得只使用 95 个训练样本可以实现对可懂度和严重程度得分的预测,平均均方误差分别为 0.73 和 1.15。结果表明,基于 ASR 的 Wav2Vec2 模型带来了最佳结果,并且可能暗示了 ASR 与语音质量评估之间的强相关性。同时,我们还评估了该方法在变长片段持续时间和语音内容等因素上的影响。
Mar, 2024
声音障碍是显著影响患者生活质量的病理状态。然而,由于病理性声音数据短缺以及用于诊断的录音类型的多样性,对这些病理状态的非侵入性自动诊断仍未得到充分探索。本文提出了一种新颖的解决方案,直接采用在原始声音信号上工作的变压器,并通过合成数据生成和数据增强来解决数据短缺的问题。此外,我们同时考虑了多种录音类型,如句子朗读和持续元音发音,通过采用多模态专家集合来对不同数据类型上的预测进行对齐。在公共和私有数据集上获得的实验结果显示了我们解决方案在障碍检测和分类任务中的有效性,并在现有方法上有了很大的改进。
Jun, 2024
本文研究了预训练神经模型在自动语音识别中的鲁棒性,并对 wav2vec2,HuBERT 和 DistilHuBERT 进行了鲁棒性分析,发现它们在 LibriSpeech 和 TIMIT 数据集上对噪声的鲁棒性不同,同时进行了层次分析以预测每层的学习,通过误差传播和对比清晰和嘈杂的数据,验证了 Pasad 等人的预测,并提出未来研究的有趣方向。
Aug, 2022
使用自监督模型结合多任务学习的新颖自动程度评估方法在不充分的数据下对 Dysarthric 发音进行评估,该方法使用 Wav2vec 2.0 XLS-R 以及手工制作的声学特征和机器学习分类器, 在 Korean dysarthric speech QoLT 数据库上相较传统基线方法提高了 1.25% 的 F1 值,并且相较于没有 ASR 头的模型提高了 10.61% 的相对百分比增长。我们还通过分析潜在表示和正则化效应来展示多任务学习如何影响重度分类表现。
Oct, 2022
通过使用预训练的 wav2vec 2.0 模型作为特征提取器,本研究对发音困难症的声学语音信号进行了自动检测和严重程度分类,结果表明使用 wav2vec 模型的第一层嵌入特征在准确度上相较于基线特征(声谱图)提升了 1.23%,在严重程度分类任务中最终层的嵌入特征相较于基线特征(梅尔频率倒谱系数)提升了 10.62%。
Sep, 2023
利用神经网络和先前训练的自监督和弱监督模型的中间层特征表示,结合人类记忆的示例驱动型心理模型,预测助听器用户的人类可懂度评级,并在不同任务和训练数据中的普通听众中找到相较于基础系统 28.7 的均方根误差 25.3 的显着性能提升。
Jan, 2024
本文提出了一种新的客观预测合成语音自然度的模型,采用 CNN-LSTM 网络逐端训练,独立于语言,能用于评估文本转语音或语音转换系统的效果,通过在多个数据集上测试证明模型的可靠性。
Apr, 2021
通过深度学习模型在临床环境中评估音频分类,针对反映真实世界前瞻性数据收集的小数据集,我们分析了包括 DenseNet 和 ConvNeXt 在内的 CNN 模型,以及像 ViT、SWIN 和 AST 这样的 Transformer 模型,并将它们与预训练的音频模型(如 YAMNet 和 VGGish)进行比较。我们的方法强调了在特定临床数据上微调之前,在大数据集上进行预训练的好处。我们从中风患者中先前未有的两个患者音频数据集进行前瞻性收集。我们研究了各种预处理技术,发现 RGB 和灰度频谱图变换会基于它们从预训练中学到的先验知识以不同方式影响模型性能。我们的发现表明,在小数据集背景下,CNN 模型可以达到或超过 Transformer 模型的性能,其中 DenseNet-Contrastive 和 AST 模型显示出显著的性能。本研究突出了模型选择、预训练和预处理在音频分类中逐渐边际增益的重要性,为依赖音频分类的临床诊断提供了有价值的见解。
Feb, 2024
我们提出了一种基于感知器的序列分类器,用于检测反映多种神经系统疾病的语音异常。我们将这个分类器与一个训练有素(无监督训练)的通用语音模型(USM)结合起来,该模型在 1200 万小时的多样化音频记录上进行训练。我们的模型将长序列压缩为一组小的与类别相关的潜在表示,并使用分解投影来预测有序输入语音的不同属性。我们的方法的好处是,它允许我们对输入的不同区域进行不同类别的建模,同时具有数据效率。我们在 Mayo Clinic 的手稿语料库上对提出的模型进行了广泛评估。我们的模型的性能优于标准的 Transformer 模型(80.9%)和感知器模型(81.8%),平均准确率达到 83.1%。通过有限的任务特定数据,我们发现预训练是重要的,并且出乎意料的是,预训练与不相关的自动语音识别(ASR)任务也是有益的。中间层的编码提供了声学和语音信息的混合,并且相对于仅使用最终层的编码(83.1% 对比 79.6%),获得了最佳预测结果。这些结果有很大的潜力,并且在进一步的改进后或许可以帮助医生检测语音异常而无需接触高度专业的言语病理学家。
Oct, 2023