通过声门源特征分析和检测病理性声音
本研究提出了两组新颖特征用于帕金森病严重度分类:基于单频滤波方法的 SFF 倒谱系数(SFFCC)和基于 SFF 的 MFCC(MFCC-SFF)。使用 PC-GITA 数据库进行实验,结果显示所提出的特征在三个语音任务中均优于传统的 MFCC 特征。相较于 MFCC 特征,所提出的 SFFCC 和 MFCC-SFF 特征在元音任务中相对提高了 5.8% 和 2.3%、在句子任务中相对提高了 7.0% 和 1.8%、在朗读文本任务中相对提高了 2.4% 和 1.1%。
Aug, 2023
本研究提出一种新方法,使用连续的普通话语音而不是单个元音,来区分四种常见的声音障碍,并使用离散余弦变换和双向 LSTM 网络,通过大型数据库的实验表明,该方法相对于使用单个元音的系统有显著的准确度和召回率提高以及提高了系统学习声音障碍的能力。
Feb, 2022
本研究提出了一种深度学习框架来生成对声音质量敏感且在不同语料库中具有鲁棒性的声学特征嵌入,同时将对比性损失与分类损失相结合进行训练,并使用数据膨胀方法提高模型的鲁棒性,实证结果表明,该方法不仅在语料库内和语料库间的分类准确度上表现出色,而且生成的嵌入对声音质量敏感且跨不同语料库具有鲁棒性。同时,与三种基准方法比较的结果表明,所提出的模型在干净以及损坏的语料库内和语料库间表现出一致的优异性能。
Nov, 2022
声音障碍是显著影响患者生活质量的病理状态。然而,由于病理性声音数据短缺以及用于诊断的录音类型的多样性,对这些病理状态的非侵入性自动诊断仍未得到充分探索。本文提出了一种新颖的解决方案,直接采用在原始声音信号上工作的变压器,并通过合成数据生成和数据增强来解决数据短缺的问题。此外,我们同时考虑了多种录音类型,如句子朗读和持续元音发音,通过采用多模态专家集合来对不同数据类型上的预测进行对齐。在公共和私有数据集上获得的实验结果显示了我们解决方案在障碍检测和分类任务中的有效性,并在现有方法上有了很大的改进。
Jun, 2024
本篇论文评估使用自动方法从语音波形中直接检测 GCIs 的效果,比较了五种最先进的 GCI 检测算法,其中 HEP、ZFR、DYPSA、SEDREAMS 和 YAGA 在干净语音上表现最佳,在鲁棒性测试中表现较好,并在语音处理的一个具体应用中显示了 S 的卓越性能。
Dec, 2019
我们在本研究中介绍了一种基于语音质量不同维度(包括音素、流利度和韵律)的综合性评分标准。通过利用 Prautocal 语料库,我们进行了两个实验,分别对音素和流利度进行评估。结果显示,评估这些现象的复杂性取决于检测到的特定类型的不流畅性,但我们观察到了积极的趋势。
Apr, 2024
利用咳嗽声音进行 COVID-19 检测的研究,探讨了增强机器学习模型性能的各种声学特征提取技术,并在两种机器学习算法(支持向量机和多层感知机)上进行了实证研究,提出了一种高效的 COVID-19 检测系统。该系统在 COUGHVID 和 Virufy 数据集上表现出更好的分类性能。
Sep, 2023
本文提出了一种使用音频信号处理中的 Mel 频率倒谱系数和振幅调制谱中提取的特征来检测轴承故障的新方法,并使用只有健康轴承的数据训练一种 One-class 支持向量机来应对数据不平衡问题,从而在高度具有挑战性的场景下评估了该方法。
Apr, 2023