改善病理性语音障碍学习的连续语音
声音障碍是显著影响患者生活质量的病理状态。然而,由于病理性声音数据短缺以及用于诊断的录音类型的多样性,对这些病理状态的非侵入性自动诊断仍未得到充分探索。本文提出了一种新颖的解决方案,直接采用在原始声音信号上工作的变压器,并通过合成数据生成和数据增强来解决数据短缺的问题。此外,我们同时考虑了多种录音类型,如句子朗读和持续元音发音,通过采用多模态专家集合来对不同数据类型上的预测进行对齐。在公共和私有数据集上获得的实验结果显示了我们解决方案在障碍检测和分类任务中的有效性,并在现有方法上有了很大的改进。
Jun, 2024
本研究提出了一种深度学习框架来生成对声音质量敏感且在不同语料库中具有鲁棒性的声学特征嵌入,同时将对比性损失与分类损失相结合进行训练,并使用数据膨胀方法提高模型的鲁棒性,实证结果表明,该方法不仅在语料库内和语料库间的分类准确度上表现出色,而且生成的嵌入对声音质量敏感且跨不同语料库具有鲁棒性。同时,与三种基准方法比较的结果表明,所提出的模型在干净以及损坏的语料库内和语料库间表现出一致的优异性能。
Nov, 2022
使用 CTC 损失和双向 LSTM RNN 网络,基于整词的声学单位构建连续语音识别系统,无需传统上下文依赖的子词单元和语言模型。
Oct, 2016
通过应用连续的孟加拉语音,我们提出了一种方法来确定某个地区说话者的地理身份,使用了 Mel 频率倒谱系数(MFCC)和 Delta 特征在人工神经网络上对说话者进行分类,并在特征提取之前对原始音频进行了一些预处理任务。我们的数据集包括 633 个男性和女性说话者的超过 45 小时的音频数据,并获得了 85.44% 的最高准确率。
Apr, 2024
本文研究了一组用于混乱语音识别的数据增强技术,包括声道长度扰动(VTLP)、节奏扰动和速度扰动,并利用正常和混乱语音进行增强处理。通过基于学习隐藏单元贡献(LHUC)的说话者自适应训练对原始和增强数据中的受损说话者之间的变异性进行建模。使用基于速度扰动的最佳增强方法构建的最终说话者自适应系统相对于没有数据增强的基线系统减少了 2.92%绝对(9.3%相对)的词错误率(WER),并在包含 16 位 Dysarthria 患者的测试集上获得了 26.37%的整体 WER。
Jan, 2022
本文提出了使用神经网络和语言模型进行大词汇连续语音识别的方法,并通过一种改进的前缀搜索解码算法,使得该方法完全不依赖于基于 HMM 的架构,实现了完全自主的一遍语音识别。在对华尔街日报语料库的实验中,取得了较为具有竞争力的错误率,并且证明了双向网络的重要性。
Aug, 2014
本文提出了一种基于声学特征而不是语言模型的口吃检测和分类的模型,采用了深度残差网络和双向长短时记忆层,以识别几种形式的口吃,平均漏诊率仅为 10.03%,比现有技术先进了近 27%。
Oct, 2019
我们提出了一种基于感知器的序列分类器,用于检测反映多种神经系统疾病的语音异常。我们将这个分类器与一个训练有素(无监督训练)的通用语音模型(USM)结合起来,该模型在 1200 万小时的多样化音频记录上进行训练。我们的模型将长序列压缩为一组小的与类别相关的潜在表示,并使用分解投影来预测有序输入语音的不同属性。我们的方法的好处是,它允许我们对输入的不同区域进行不同类别的建模,同时具有数据效率。我们在 Mayo Clinic 的手稿语料库上对提出的模型进行了广泛评估。我们的模型的性能优于标准的 Transformer 模型(80.9%)和感知器模型(81.8%),平均准确率达到 83.1%。通过有限的任务特定数据,我们发现预训练是重要的,并且出乎意料的是,预训练与不相关的自动语音识别(ASR)任务也是有益的。中间层的编码提供了声学和语音信息的混合,并且相对于仅使用最终层的编码(83.1% 对比 79.6%),获得了最佳预测结果。这些结果有很大的潜力,并且在进一步的改进后或许可以帮助医生检测语音异常而无需接触高度专业的言语病理学家。
Oct, 2023
该文提出了一种基于多任务和分层多任务学习框架,共同模拟连续和离散情感标签之间的关系,并展示了如何利用这种关系来提高情感识别任务的鲁棒性和性能。实验结果表明,我们的模型在两个广泛使用的数据集(IEMOCAP 和 MSPPodcast)上有统计显着的性能改进,并展示了该不匹配训练方法的实验结果和推理。
Oct, 2022
自动检测声音病理学能够客观评估和较早干预诊断。本研究对声门源特征进行系统分析,考察其在声音病理学检测中的有效性。实验结果显示,声门源特征与传统的 MFCC 和 PLP 特征相比,具有可比或更好的声音病理学检测性能,并且当与传统的 MFCC 和 PLP 特征结合时,性能表现最佳。
Sep, 2023