改善病理性语音障碍学习的连续语音

Feb, 2022

改善病理性语音障碍学习的连续语音

Continuous Speech for Improved Learning Pathological Voice Disorders

Syu-Siang Wang, Chi-Te Wang, Chih-Chung Lai, Yu Tsao, Shih-Hau Fang

TL;DR本研究提出一种新方法，使用连续的普通话语音而不是单个元音，来区分四种常见的声音障碍，并使用离散余弦变换和双向 LSTM 网络，通过大型数据库的实验表明，该方法相对于使用单个元音的系统有显著的准确度和召回率提高以及提高了系统学习声音障碍的能力。

Abstract

Goal: Numerous studies had successfully differentiated normal and abnormal voice samples. Nevertheless, further classification had rarely been attempted. This study proposes a novel approach, using continuous mandarin speech instead of a single vowel, to classify four common

voice disorders continuous mandarin speech mel-frequency cepstral coefficients bilstm machine learning

发现论文，激发创造

语音障碍分析：基于 Transformer 的方法

声音障碍是显著影响患者生活质量的病理状态。然而，由于病理性声音数据短缺以及用于诊断的录音类型的多样性，对这些病理状态的非侵入性自动诊断仍未得到充分探索。本文提出了一种新颖的解决方案，直接采用在原始声音信号上工作的变压器，并通过合成数据生成和数据增强来解决数据短缺的问题。此外，我们同时考虑了多种录音类型，如句子朗读和持续元音发音，通过采用多模态专家集合来对不同数据类型上的预测进行对齐。在公共和私有数据集上获得的实验结果显示了我们解决方案在障碍检测和分类任务中的有效性，并在现有方法上有了很大的改进。

Jun, 2024

鲁棒的声音质量特征嵌入用于失音声音检测

本研究提出了一种深度学习框架来生成对声音质量敏感且在不同语料库中具有鲁棒性的声学特征嵌入，同时将对比性损失与分类损失相结合进行训练，并使用数据膨胀方法提高模型的鲁棒性，实证结果表明，该方法不仅在语料库内和语料库间的分类准确度上表现出色，而且生成的嵌入对声音质量敏感且跨不同语料库具有鲁棒性。同时，与三种基准方法比较的结果表明，所提出的模型在干净以及损坏的语料库内和语料库间表现出一致的优异性能。

Nov, 2022

神经语音识别：基于声学到词汇 LSTM 模型的大词汇量语音识别

使用 CTC 损失和双向 LSTM RNN 网络，基于整词的声学单位构建连续语音识别系统，无需传统上下文依赖的子词单元和语言模型。

Oct, 2016

利用人工神经网络识别持续孟加拉语言中的说话者划分

通过应用连续的孟加拉语音，我们提出了一种方法来确定某个地区说话者的地理身份，使用了 Mel 频率倒谱系数（MFCC）和 Delta 特征在人工神经网络上对说话者进行分类，并在特征提取之前对原始音频进行了一些预处理任务。我们的数据集包括 633 个男性和女性说话者的超过 45 小时的音频数据，并获得了 85.44% 的最高准确率。

Apr, 2024

探究无序语音识别数据增强技术

本文研究了一组用于混乱语音识别的数据增强技术，包括声道长度扰动（VTLP）、节奏扰动和速度扰动，并利用正常和混乱语音进行增强处理。通过基于学习隐藏单元贡献（LHUC）的说话者自适应训练对原始和增强数据中的受损说话者之间的变异性进行建模。使用基于速度扰动的最佳增强方法构建的最终说话者自适应系统相对于没有数据增强的基线系统减少了 2.92％绝对（9.3％相对）的词错误率（WER），并在包含 16 位 Dysarthria 患者的测试集上获得了 26.37％的整体 WER。

Jan, 2022

使用双向递归深度神经网络进行大词汇连续语音识别的一次通过

本文提出了使用神经网络和语言模型进行大词汇连续语音识别的方法，并通过一种改进的前缀搜索解码算法，使得该方法完全不依赖于基于 HMM 的架构，实现了完全自主的一遍语音识别。在对华尔街日报语料库的实验中，取得了较为具有竞争力的错误率，并且证明了双向网络的重要性。

Aug, 2014

使用深度残差网络和双向长短时记忆检测多种语音不流畅

本文提出了一种基于声学特征而不是语言模型的口吃检测和分类的模型，采用了深度残差网络和双向长短时记忆层，以识别几种形式的口吃，平均漏诊率仅为 10.03％，比现有技术先进了近 27%。

Oct, 2019

利用基于感知器的序列分类器和通用语音模型检测语音异常

我们提出了一种基于感知器的序列分类器，用于检测反映多种神经系统疾病的语音异常。我们将这个分类器与一个训练有素（无监督训练）的通用语音模型（USM）结合起来，该模型在 1200 万小时的多样化音频记录上进行训练。我们的模型将长序列压缩为一组小的与类别相关的潜在表示，并使用分解投影来预测有序输入语音的不同属性。我们的方法的好处是，它允许我们对输入的不同区域进行不同类别的建模，同时具有数据效率。我们在 Mayo Clinic 的手稿语料库上对提出的模型进行了广泛评估。我们的模型的性能优于标准的 Transformer 模型（80.9%）和感知器模型（81.8%），平均准确率达到 83.1%。通过有限的任务特定数据，我们发现预训练是重要的，并且出乎意料的是，预训练与不相关的自动语音识别（ASR）任务也是有益的。中间层的编码提供了声学和语音信息的混合，并且相对于仅使用最终层的编码（83.1% 对比 79.6%），获得了最佳预测结果。这些结果有很大的潜力，并且在进一步的改进后或许可以帮助医生检测语音异常而无需接触高度专业的言语病理学家。

Oct, 2023

将离散和连续情绪标签统一用于语音情感识别

该文提出了一种基于多任务和分层多任务学习框架，共同模拟连续和离散情感标签之间的关系，并展示了如何利用这种关系来提高情感识别任务的鲁棒性和性能。实验结果表明，我们的模型在两个广泛使用的数据集（IEMOCAP 和 MSPPodcast）上有统计显着的性能改进，并展示了该不匹配训练方法的实验结果和推理。

Oct, 2022

通过声门源特征分析和检测病理性声音

自动检测声音病理学能够客观评估和较早干预诊断。本研究对声门源特征进行系统分析，考察其在声音病理学检测中的有效性。实验结果显示，声门源特征与传统的 MFCC 和 PLP 特征相比，具有可比或更好的声音病理学检测性能，并且当与传统的 MFCC 和 PLP 特征结合时，性能表现最佳。

Sep, 2023