时间拉伸对改善口吃病患者的言语能力和识别度的有效性研究

Jan, 2022

时间拉伸对改善口吃病患者的言语能力和识别度的有效性研究

The Effectiveness of Time Stretching for Enhancing Dysarthric Speech for Improved Dysarthric Speech Recognition

Luke Prananta, Bence Mark Halpern, Siyuan Feng, Odette Scharenborg

TL;DR本文中，我们研究了几种现有和一种新型的基于生成对抗网络（GAN）的语音转换方法，用于增强发音不清的语音以提高发音不清的语音识别；我们比较了现有方法的关键组件，以确定最有效的解决方案来改善发音不清的语音识别。我们发现，一些直接的信号处理方法，如固定噪声移除和基于声码器的时间拉伸，可以导致与使用最先进的 GAN 方法相当的发音不清语音识别结果；此外，我们提出的 MaskCycleGAN-VC 与时间拉伸增强的组合方案，能够改善某些发音不清的演讲者与时间拉伸基准相比，使得音素识别结果更加准确。

Abstract

In this paper, we investigate several existing and a new state-of-the-art generative adversarial network-based (GAN) voice conversion method for enhancing →

generative adversarial network voice conversion dysarthric speech phoneme recognition maskcyclegan-vc

发现论文，激发创造

面向发音障碍和老年人的个性化对抗性数据增强语音识别

本文提出使用基于 GAN 的数据增强方法，通过分析非标准语音（如老年人和 dysarthric 患者的语音）的光谱和时间差异可模拟增强数据，提高了 UASpeech、TORGO、Pitt 和 JCCOCC MoCA 等数据集上 TDNN 和 Conformer ASR 系统的训练精度，相对于基于速度的数据增强方法，可使 TORGO 和 DementiaBank 数据集的 WER 分别提高 9.61％和 6.4％。

May, 2022

使用循环一致性对抗训练改善发音障碍患者的语音可懂度

本研究旨在使用循环一致性生成对抗网络模型将口吃音转换为健康人的语音，使用 18,700 个口吃音和 8,610 个健康对照韩语发音训练了本项目的发生器，进而证明了该基于 GAN 的转换方法对于改善口吃音的可懂度是有用的。

Jan, 2020

为 ASR 数据增强精确合成口吃病患者语音

该研究提出了一种新的口吃性语音合成方法，用于自动语音识别 (ASR) 训练数据的增强，并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性，特别是对于严重口吃者。

Aug, 2023

使用多说话人 TTS 合成咬字不清语音并应用于咬字不清语音识别

本文旨在通过使用多说话人端到端 TTS 合成系统为 DNN-HMM 建立训练提供合成语音，其中添加语音障碍严重性等控制参数以继续改进多语音说话人端到端 TTS 系统，实验表明：使用合成的语音，对 DNN-HMM ASR 进行训练可以将识别速率提高 12.2％，且添加严重性级别和暂停插入控制参数可以将错误率降低 6.5％。

Jan, 2022

使用对抗性声码器加速 TTS 合成

该研究提出了一种使用生成对抗网络 (GANs) 的方法，从感知上启发的频谱图到简单的幅度谱图进行映射，以达到比现有的 TTS 系统更快的速度和更好的性能。

Apr, 2019

使用对抗和基于信号增强技术的阿拉伯语运动失调言语识别

本文旨在通过多阶段增强方法来改进阿拉伯语言障碍患者的自动语音识别性能，具体包括使用基于信号的方法生成阿拉伯语言障碍患者的语音，并通过对英语语言障碍患者语音数据进行训练以进行多语言扩充，以及在不同的语音障碍程度下进行微调和文本纠正策略。通过这些方法，本文在阿拉伯语言障碍患者的语音数据集上实现了 18% 的词错误率和 17.2% 的字符错误率，相比只针对健康数据训练的基础模型，实现了 81.8% 的 WER 提升，并在真实的英文语言障碍患者语音数据集上实现了 124% 的 WER 提升。

Jun, 2023

通过扩散 GAN 提升无监督语音识别

使用扩散 - GAN 提高无监督自动语音识别的敌对训练方法。将各种强度的实例噪声注入生成器的输出和来自预训练音素语言模型的未标记参考文本，使用时间步骤相关的判别器将它们分开，并将梯度反向传播更新生成器，实验表明该增强策略能有效地提高语音识别词错误率。

Mar, 2023

用生成对抗网络对失语症患者的非配对语音进行转换

本研究提出了一种新的音频转换方法，是一种 GAN-based 无监督的语音转换模型，用于改善协助医疗手术的病人的语音理解性，该方法可以将受损的语音转换为正常的语音而保留语言内容和说话人特征。

Oct, 2018

基于生成对抗网络的语音去混响方法研究，用于增强语音识别鲁棒性

本文探讨了生成式对抗网络在语音去混响中的应用及其提高语音识别性能的优势，通过实验发现将 LSTM 与深度残差网络相结合可达到 16% 的语音识别误差率相对下降。

Mar, 2018

使用光谱时域深度特征进行言语适应，在语音识别中应用于发音困难和老年人

该研究提出了一种基于频谱分解的深度特征提取方法，用于通过个性化的演讲者自适应技术提高自动语音识别系统对肌肉发音障碍者和老年人的识别准确率。通过在四项任务中的实验表明，在应用该技术后，识别准确率有了显著的提高。

Feb, 2022