利用言语障碍严重程度进行口吃性言语识别

May, 2023

利用言语障碍严重程度进行口吃性言语识别

Use of Speech Impairment Severity for Dysarthric Speech Recognition

Mengzhe Geng, Zengrui Jin, Tianzi Wang, Shujie Hu, Jiajun Deng...

TL;DR本文提出了一套新的方法，即使用多任务训练，包含严重程度预测误差、说话者 - 严重程度感知辅助特征适应以及基于与严重度有关和说话者身份有关的 LHUC 转换来进行发音障碍语音识别，结果实验表明将额外的语音障碍严重度纳入最先进的混合 DNN、E2E Conformer 和预训练的 Wav2vec 2.0 ASR 系统，可以产生显著的 WER 下降，最低 WER 达到 17.82％。

Abstract

A key challenge in dysarthric speech recognition is the speaker-level diversity attributed to both speaker-identity associated factors such as gender, and speech impairment severity. Most prior researches on addressing this issue focused on using speaker-identity only. To this end, thi

dysarthric speech recognition speaker-level diversity severity prediction error speaker-severity awareness lhuc transforms

发现论文，激发创造

使用自监督模型和多任务学习进行发音障碍语音的自动严重程度评估

使用自监督模型结合多任务学习的新颖自动程度评估方法在不充分的数据下对 Dysarthric 发音进行评估，该方法使用 Wav2vec 2.0 XLS-R 以及手工制作的声学特征和机器学习分类器，在 Korean dysarthric speech QoLT 数据库上相较传统基线方法提高了 1.25% 的 F1 值，并且相较于没有 ASR 头的模型提高了 10.61% 的相对百分比增长。我们还通过分析潜在表示和正则化效应来展示多任务学习如何影响重度分类表现。

Oct, 2022

基于 Wav2vec 的言语智能识别与严重程度分类 —— 以口吃为例

通过使用预训练的 wav2vec 2.0 模型作为特征提取器，本研究对发音困难症的声学语音信号进行了自动检测和严重程度分类，结果表明使用 wav2vec 模型的第一层嵌入特征在准确度上相较于基线特征（声谱图）提升了 1.23%，在严重程度分类任务中最终层的嵌入特征相较于基线特征（梅尔频率倒谱系数）提升了 10.62%。

Sep, 2023

使用自监督转换和多任务学习的语音无关语言障碍严重程度分类

通过使用变压器模型与多任务学习，研究论文提出了一种自动评估口吃严重程度的新框架，并比较不同方法之间的性能，以实现客观、可重复、易接触、标准化和成本效益高的自动评估方案。

Feb, 2024

使用 Transformer 进行少样本处理的发音障碍语音可理解性水平分类

通过使用具有有限数据的 Transformer 模型，本研究旨在准确分类失语和提供有关可理解性水平的信息，同时解决以往研究中存在的数据泄漏问题，并表明所采用的多课程模型在特定数据集上获得了 67% 的准确度。

Sep, 2023

使用光谱时域深度特征进行言语适应，在语音识别中应用于发音困难和老年人

该研究提出了一种基于频谱分解的深度特征提取方法，用于通过个性化的演讲者自适应技术提高自动语音识别系统对肌肉发音障碍者和老年人的识别准确率。通过在四项任务中的实验表明，在应用该技术后，识别准确率有了显著的提高。

Feb, 2022

面向语音识别的即时基于特征的发音障碍和老年人说话适应

该研究提出了两种新型的基于特征的即时演讲者适应方法，即基于演讲者水平的方差规范化谱基础嵌入 (SBEVR) 特征和基于即时学习的隐藏单元贡献 (LHUC) 转换。实验结果显示，这两种方法在适应演讲者语音时表现出色，其中基于 SBEVR 特征的适应方式的性能优于基于模型的 LHUC 适应。

Mar, 2022

跨语言自监督语音表征，提高口吃症患者的语音识别能力

使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统，对患有言语障碍的英语、西班牙语和意大利语使用者进行识别，结果表明相较于 Fbank 特征，使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。

Apr, 2022

为 ASR 数据增强精确合成口吃病患者语音

该研究提出了一种新的口吃性语音合成方法，用于自动语音识别 (ASR) 训练数据的增强，并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性，特别是对于严重口吃者。

Aug, 2023

香港中文大学口吃言语识别系统的最新进展

本文介绍了中国香港中文大学对自动语音识别技术中有关于不正常发音语音的识别问题展开的最新研究成果，利用了新型建模技术和 Bayesian model adaptation 等方法，最终取得了乌阿里语（UASpeech）失语症语音库上最低的 25.21% 字误率（WER），并在多方面相对于 2018 年的同类系统均有较大提升

Jan, 2022

通过对抗性说话者适应实现发音不清语音重建中说话者身份的保留

提出了一种基于 adversarial speaker adaptation 的多任务学习策略，主要任务是 fine-tune 演讲者编码器以有效捕捉身份相关的信息，并通过应用对抗性训练来规范重建语音的分布，以避免引入异常发言模式。结果表明，该方法可在保持语音自然度的同时实现增强的演讲者相似性。

Feb, 2022