自然语言预训练模型在自动语音评估语音障碍中的解释

Jun, 2024

自然语言预训练模型在自动语音评估语音障碍中的解释

Interpreting Pretrained Speech Models for Automatic Speech Assessment of Voice Disorders

Hok-Shing Lau, Mark Huntly, Nathon Morgan, Adesua Iyenoma, Biao Zeng...

TL;DR训练和比较两种配置下的音频频谱变换器，用于语音障碍检测；应用注意力回传方法生成模型相关性图，分析模型在不同条件下的预测方式，证明随着模型微调，注意力的扩散减少，重点集中在特定音素区域。

Abstract

speech contains information that is clinically relevant to some diseases, which has the potential to be used for health assessment. Recent work shows an interest in applying deep learning algorithms, especially p

speech deep learning algorithms automatic speech assessment audio spectrogram transformer voice disorder detection

发现论文，激发创造

语音障碍分析：基于 Transformer 的方法

声音障碍是显著影响患者生活质量的病理状态。然而，由于病理性声音数据短缺以及用于诊断的录音类型的多样性，对这些病理状态的非侵入性自动诊断仍未得到充分探索。本文提出了一种新颖的解决方案，直接采用在原始声音信号上工作的变压器，并通过合成数据生成和数据增强来解决数据短缺的问题。此外，我们同时考虑了多种录音类型，如句子朗读和持续元音发音，通过采用多模态专家集合来对不同数据类型上的预测进行对齐。在公共和私有数据集上获得的实验结果显示了我们解决方案在障碍检测和分类任务中的有效性，并在现有方法上有了很大的改进。

Jun, 2024

调谐：临床环境中有限数据的音频分类器性能分析

通过深度学习模型在临床环境中评估音频分类，针对反映真实世界前瞻性数据收集的小数据集，我们分析了包括 DenseNet 和 ConvNeXt 在内的 CNN 模型，以及像 ViT、SWIN 和 AST 这样的 Transformer 模型，并将它们与预训练的音频模型（如 YAMNet 和 VGGish）进行比较。我们的方法强调了在特定临床数据上微调之前，在大数据集上进行预训练的好处。我们从中风患者中先前未有的两个患者音频数据集进行前瞻性收集。我们研究了各种预处理技术，发现 RGB 和灰度频谱图变换会基于它们从预训练中学到的先验知识以不同方式影响模型性能。我们的发现表明，在小数据集背景下，CNN 模型可以达到或超过 Transformer 模型的性能，其中 DenseNet-Contrastive 和 AST 模型显示出显著的性能。本研究突出了模型选择、预训练和预处理在音频分类中逐渐边际增益的重要性，为依赖音频分类的临床诊断提供了有价值的见解。

Feb, 2024

利用大型预训练模型实现低资源语音识别的高效使用

本研究探讨了在越南语和德语的医疗领域低资源对话电话语音语料库中使用无监督方法进行预训练，并讨论了如何适应实际的电话任务，包括带宽传输和不同的数据条件，该方法超过了基线 22% 的相对性能。

Oct, 2022

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022

自动语音识别端到端神经模型的鲁棒性分析

本文研究了预训练神经模型在自动语音识别中的鲁棒性，并对 wav2vec2，HuBERT 和 DistilHuBERT 进行了鲁棒性分析，发现它们在 LibriSpeech 和 TIMIT 数据集上对噪声的鲁棒性不同，同时进行了层次分析以预测每层的学习，通过误差传播和对比清晰和嘈杂的数据，验证了 Pasad 等人的预测，并提出未来研究的有趣方向。

Aug, 2022

利用基于感知器的序列分类器和通用语音模型检测语音异常

我们提出了一种基于感知器的序列分类器，用于检测反映多种神经系统疾病的语音异常。我们将这个分类器与一个训练有素（无监督训练）的通用语音模型（USM）结合起来，该模型在 1200 万小时的多样化音频记录上进行训练。我们的模型将长序列压缩为一组小的与类别相关的潜在表示，并使用分解投影来预测有序输入语音的不同属性。我们的方法的好处是，它允许我们对输入的不同区域进行不同类别的建模，同时具有数据效率。我们在 Mayo Clinic 的手稿语料库上对提出的模型进行了广泛评估。我们的模型的性能优于标准的 Transformer 模型（80.9%）和感知器模型（81.8%），平均准确率达到 83.1%。通过有限的任务特定数据，我们发现预训练是重要的，并且出乎意料的是，预训练与不相关的自动语音识别（ASR）任务也是有益的。中间层的编码提供了声学和语音信息的混合，并且相对于仅使用最终层的编码（83.1% 对比 79.6%），获得了最佳预测结果。这些结果有很大的潜力，并且在进一步的改进后或许可以帮助医生检测语音异常而无需接触高度专业的言语病理学家。

Oct, 2023

自监督语音转文本系统中性别影响的研究

本研究使用法语作为研究语言，通过比较不同性别平衡的预训练数据集在 ASR 和 ST 中的表现来探究其影响。结果表明，性别平衡的预训练模型不一定导致最佳结果，并且使用自监督模型作为特征提取器时，ASR 和 ST 的结果会遵循更复杂的模式。

Apr, 2022

自监督语音表示模型的分层分析

本研究使用一套分析工具研究一款较新的波形自编码预训练语音表征模型，发现其中间表征向量所包含的声学信息和语言信息内容，并研究了自动语音识别（ASR）微调对这些观察结果产生的影响，为此提出了一个修改方案，并证明其在低资源设置中提高了单词错误率的表现。

Jul, 2021

利用大规模预训练模型进行无需训练的深度伪造语音识别

通过使用大规模预训练模型，将音频深度伪造检测问题转化为说话人验证框架，利用被测声音样本和所声称身份的声音间的不匹配暴露假音频，实现了对广义能力的全面泛化。实验表明，基于预训练模型的检测器在内部数据上与监督方法不相上下，在外部数据上则大幅超越监督方法。

May, 2024

基于神经变换器的巴西葡萄牙语语音声学模型

通过 Transformer 神经网络构建了一个训练于大量巴西葡萄牙语言音资料上的声学模型，使用预训练技术细调该模型并在呼吸不足检测、性别识别和年龄组分类三个任务中表现出显著提升，尤其在呼吸不足检测方面取得了迄今为止最好的结果，显示出这种声学模型作为语音生物标志物研究的有希望工具。此外，性别识别的性能与英文的最先进模型相媲美。

Dec, 2023