使用循环一致性对抗训练改善发音障碍患者的语音可懂度

Jan, 2020

使用循环一致性对抗训练改善发音障碍患者的语音可懂度

Improving Dysarthric Speech Intelligibility Using Cycle-consistent Adversarial Training

Seung Hee Yang, Minhwa Chung

TL;DR本研究旨在使用循环一致性生成对抗网络模型将口吃音转换为健康人的语音，使用 18,700 个口吃音和 8,610 个健康对照韩语发音训练了本项目的发生器，进而证明了该基于 GAN 的转换方法对于改善口吃音的可懂度是有用的。

Abstract

dysarthria is a motor speech impairment affecting millions of people. Dysarthric speech can be far less intelligible than those of non-dysarthric speakers, causing significant communication difficulties. The goal

dysarthria speech impairment cycle-consistent gan spectral domain speech intelligibility

发现论文，激发创造

为 ASR 数据增强精确合成口吃病患者语音

该研究提出了一种新的口吃性语音合成方法，用于自动语音识别 (ASR) 训练数据的增强，并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性，特别是对于严重口吃者。

Aug, 2023

面向发音障碍和老年人的个性化对抗性数据增强语音识别

本文提出使用基于 GAN 的数据增强方法，通过分析非标准语音（如老年人和 dysarthric 患者的语音）的光谱和时间差异可模拟增强数据，提高了 UASpeech、TORGO、Pitt 和 JCCOCC MoCA 等数据集上 TDNN 和 Conformer ASR 系统的训练精度，相对于基于速度的数据增强方法，可使 TORGO 和 DementiaBank 数据集的 WER 分别提高 9.61％和 6.4％。

May, 2022

时间拉伸对改善口吃病患者的言语能力和识别度的有效性研究

本文中，我们研究了几种现有和一种新型的基于生成对抗网络（GAN）的语音转换方法，用于增强发音不清的语音以提高发音不清的语音识别；我们比较了现有方法的关键组件，以确定最有效的解决方案来改善发音不清的语音识别。我们发现，一些直接的信号处理方法，如固定噪声移除和基于声码器的时间拉伸，可以导致与使用最先进的 GAN 方法相当的发音不清语音识别结果；此外，我们提出的 MaskCycleGAN-VC 与时间拉伸增强的组合方案，能够改善某些发音不清的演讲者与时间拉伸基准相比，使得音素识别结果更加准确。

Jan, 2022

使用对抗和基于信号增强技术的阿拉伯语运动失调言语识别

本文旨在通过多阶段增强方法来改进阿拉伯语言障碍患者的自动语音识别性能，具体包括使用基于信号的方法生成阿拉伯语言障碍患者的语音，并通过对英语语言障碍患者语音数据进行训练以进行多语言扩充，以及在不同的语音障碍程度下进行微调和文本纠正策略。通过这些方法，本文在阿拉伯语言障碍患者的语音数据集上实现了 18% 的词错误率和 17.2% 的字符错误率，相比只针对健康数据训练的基础模型，实现了 81.8% 的 WER 提升，并在真实的英文语言障碍患者语音数据集上实现了 124% 的 WER 提升。

Jun, 2023

使用多说话人 TTS 合成咬字不清语音并应用于咬字不清语音识别

本文旨在通过使用多说话人端到端 TTS 合成系统为 DNN-HMM 建立训练提供合成语音，其中添加语音障碍严重性等控制参数以继续改进多语音说话人端到端 TTS 系统，实验表明：使用合成的语音，对 DNN-HMM ASR 进行训练可以将识别速率提高 12.2％，且添加严重性级别和暂停插入控制参数可以将错误率降低 6.5％。

Jan, 2022

使用 Transformer 进行少样本处理的发音障碍语音可理解性水平分类

通过使用具有有限数据的 Transformer 模型，本研究旨在准确分类失语和提供有关可理解性水平的信息，同时解决以往研究中存在的数据泄漏问题，并表明所采用的多课程模型在特定数据集上获得了 67% 的准确度。

Sep, 2023

用于端到端言语处理任务的伽马通音谱表示：语音识别、说话人识别和清晰度评估

本研究介绍了一种基于卷积神经网络的图像识别系统，将语音文件转换为图像并用于智能家居中的语音识别、发言者识别和可懂性评估任务，并提出了基于级联结构的多网络语音识别系统，达到了 92.3% 的准确率。

Jul, 2023

香港中文大学口吃言语识别系统的最新进展

本文介绍了中国香港中文大学对自动语音识别技术中有关于不正常发音语音的识别问题展开的最新研究成果，利用了新型建模技术和 Bayesian model adaptation 等方法，最终取得了乌阿里语（UASpeech）失语症语音库上最低的 25.21% 字误率（WER），并在多方面相对于 2018 年的同类系统均有较大提升

Jan, 2022

通过对抗性说话者适应实现发音不清语音重建中说话者身份的保留

提出了一种基于 adversarial speaker adaptation 的多任务学习策略，主要任务是 fine-tune 演讲者编码器以有效捕捉身份相关的信息，并通过应用对抗性训练来规范重建语音的分布，以避免引入异常发言模式。结果表明，该方法可在保持语音自然度的同时实现增强的演讲者相似性。

Feb, 2022

用生成对抗网络对失语症患者的非配对语音进行转换

本研究提出了一种新的音频转换方法，是一种 GAN-based 无监督的语音转换模型，用于改善协助医疗手术的病人的语音理解性，该方法可以将受损的语音转换为正常的语音而保留语言内容和说话人特征。

Oct, 2018