通过声门源特征分析和检测病理性声音

Sep, 2023

通过声门源特征分析和检测病理性声音

Analysis and Detection of Pathological Voice using Glottal Source Features

Sudarsana Reddy Kadiri, Paavo Alku

TL;DR自动检测声音病理学能够客观评估和较早干预诊断。本研究对声门源特征进行系统分析，考察其在声音病理学检测中的有效性。实验结果显示，声门源特征与传统的 MFCC 和 PLP 特征相比，具有可比或更好的声音病理学检测性能，并且当与传统的 MFCC 和 PLP 特征结合时，性能表现最佳。

Abstract

Automatic detection of voice pathology enables objective assessment and earlier intervention for the diagnosis. This study provides a systematic analysis of glottal source features and investigates their effectiveness in →

voice pathology detection glottal source features mel-frequency cepstral coefficients support vector machine detection performance

发现论文，激发创造

自我监督预训练模型在通过语音和颈部表面加速度计信号进行语音质量分类的研究

使用预训练模型和声音信号的提取特征，结合颈部表面加速计信号进行声音质量的分类，显示出更好的分类准确率和性能。

Aug, 2023

使用基于单一频率滤波特征的语音对帕金森病进行严重程度分类

本研究提出了两组新颖特征用于帕金森病严重度分类：基于单频滤波方法的 SFF 倒谱系数（SFFCC）和基于 SFF 的 MFCC（MFCC-SFF）。使用 PC-GITA 数据库进行实验，结果显示所提出的特征在三个语音任务中均优于传统的 MFCC 特征。相较于 MFCC 特征，所提出的 SFFCC 和 MFCC-SFF 特征在元音任务中相对提高了 5.8% 和 2.3%、在句子任务中相对提高了 7.0% 和 1.8%、在朗读文本任务中相对提高了 2.4% 和 1.1%。

Aug, 2023

改善病理性语音障碍学习的连续语音

本研究提出一种新方法，使用连续的普通话语音而不是单个元音，来区分四种常见的声音障碍，并使用离散余弦变换和双向 LSTM 网络，通过大型数据库的实验表明，该方法相对于使用单个元音的系统有显著的准确度和召回率提高以及提高了系统学习声音障碍的能力。

Feb, 2022

鲁棒的声音质量特征嵌入用于失音声音检测

本研究提出了一种深度学习框架来生成对声音质量敏感且在不同语料库中具有鲁棒性的声学特征嵌入，同时将对比性损失与分类损失相结合进行训练，并使用数据膨胀方法提高模型的鲁棒性，实证结果表明，该方法不仅在语料库内和语料库间的分类准确度上表现出色，而且生成的嵌入对声音质量敏感且跨不同语料库具有鲁棒性。同时，与三种基准方法比较的结果表明，所提出的模型在干净以及损坏的语料库内和语料库间表现出一致的优异性能。

Nov, 2022

混乱语音评估和识别的光谱 - 时间深度特征

本文研究基于 SVD 分解的深度学习算法，用于自动识别语音障碍人士的语音，并且使用该算法提高了基于语音识别的自适应技术在该领域中的性能。

Jan, 2022

语音障碍分析：基于 Transformer 的方法

声音障碍是显著影响患者生活质量的病理状态。然而，由于病理性声音数据短缺以及用于诊断的录音类型的多样性，对这些病理状态的非侵入性自动诊断仍未得到充分探索。本文提出了一种新颖的解决方案，直接采用在原始声音信号上工作的变压器，并通过合成数据生成和数据增强来解决数据短缺的问题。此外，我们同时考虑了多种录音类型，如句子朗读和持续元音发音，通过采用多模态专家集合来对不同数据类型上的预测进行对齐。在公共和私有数据集上获得的实验结果显示了我们解决方案在障碍检测和分类任务中的有效性，并在现有方法上有了很大的改进。

Jun, 2024

从语音信号中检测声门闭合瞬间：定量综述

本篇论文评估使用自动方法从语音波形中直接检测 GCIs 的效果，比较了五种最先进的 GCI 检测算法，其中 HEP、ZFR、DYPSA、SEDREAMS 和 YAGA 在干净语音上表现最佳，在鲁棒性测试中表现较好，并在语音处理的一个具体应用中显示了 S 的卓越性能。

Dec, 2019

一个综合的标注病理语音的准则

我们在本研究中介绍了一种基于语音质量不同维度（包括音素、流利度和韵律）的综合性评分标准。通过利用 Prautocal 语料库，我们进行了两个实验，分别对音素和流利度进行评估。结果显示，评估这些现象的复杂性取决于检测到的特定类型的不流畅性，但我们观察到了积极的趋势。

Apr, 2024

COVID-19 检测系统：基于咳嗽音频特征的系统性能比较分析

利用咳嗽声音进行 COVID-19 检测的研究，探讨了增强机器学习模型性能的各种声学特征提取技术，并在两种机器学习算法（支持向量机和多层感知机）上进行了实证研究，提出了一种高效的 COVID-19 检测系统。该系统在 COUGHVID 和 Virufy 数据集上表现出更好的分类性能。

Sep, 2023

铁路车辆轴承故障检测的新特征

本文提出了一种使用音频信号处理中的 Mel 频率倒谱系数和振幅调制谱中提取的特征来检测轴承故障的新方法，并使用只有健康轴承的数据训练一种 One-class 支持向量机来应对数据不平衡问题，从而在高度具有挑战性的场景下评估了该方法。

Apr, 2023