面向发音障碍和老年人的个性化对抗性数据增强语音识别

May, 2022

面向发音障碍和老年人的个性化对抗性数据增强语音识别

Personalized Adversarial Data Augmentation for Dysarthric and Elderly Speech Recognition

Zengrui Jin, Mengzhe Geng, Jiajun Deng, Tianzi Wang, Shujie Hu...

TL;DR本文提出使用基于 GAN 的数据增强方法，通过分析非标准语音（如老年人和 dysarthric 患者的语音）的光谱和时间差异可模拟增强数据，提高了 UASpeech、TORGO、Pitt 和 JCCOCC MoCA 等数据集上 TDNN 和 Conformer ASR 系统的训练精度，相对于基于速度的数据增强方法，可使 TORGO 和 DementiaBank 数据集的 WER 分别提高 9.61％和 6.4％。

Abstract

Despite the rapid progress of automatic speech recognition (ASR) technologies targeting normal speech, accurate recognition of dysarthric and elderly speech remains highly challenging tasks to date. It is difficu

automatic speech recognition data augmentation dysarthric speech elderly speech gan

发现论文，激发创造

使用光谱时域深度特征进行言语适应，在语音识别中应用于发音困难和老年人

该研究提出了一种基于频谱分解的深度特征提取方法，用于通过个性化的演讲者自适应技术提高自动语音识别系统对肌肉发音障碍者和老年人的识别准确率。通过在四项任务中的实验表明，在应用该技术后，识别准确率有了显著的提高。

Feb, 2022

为 ASR 数据增强精确合成口吃病患者语音

该研究提出了一种新的口吃性语音合成方法，用于自动语音识别 (ASR) 训练数据的增强，并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性，特别是对于严重口吃者。

Aug, 2023

使用对抗和基于信号增强技术的阿拉伯语运动失调言语识别

本文旨在通过多阶段增强方法来改进阿拉伯语言障碍患者的自动语音识别性能，具体包括使用基于信号的方法生成阿拉伯语言障碍患者的语音，并通过对英语语言障碍患者语音数据进行训练以进行多语言扩充，以及在不同的语音障碍程度下进行微调和文本纠正策略。通过这些方法，本文在阿拉伯语言障碍患者的语音数据集上实现了 18% 的词错误率和 17.2% 的字符错误率，相比只针对健康数据训练的基础模型，实现了 81.8% 的 WER 提升，并在真实的英文语言障碍患者语音数据集上实现了 124% 的 WER 提升。

Jun, 2023

探索自监督预训练 ASR 模型用于发音障碍和老年人的语音识别

本文探讨了将领域适应 SSL 预训练模型整合到 TDNN 和 Conformer ASR 系统中，以识别老年人和患有发音障碍的人的语音，并通过实验获得了很好的效果。

Feb, 2023

口语中老年痴呆症检测的数据增强

本文通过数据增广方法研究痴呆症检测任务，并在两种建模方式中进行实证评估，结果表明数据增广可提高文本和音频领域的性能。

Jun, 2022

探究无序语音识别数据增强技术

本文研究了一组用于混乱语音识别的数据增强技术，包括声道长度扰动（VTLP）、节奏扰动和速度扰动，并利用正常和混乱语音进行增强处理。通过基于学习隐藏单元贡献（LHUC）的说话者自适应训练对原始和增强数据中的受损说话者之间的变异性进行建模。使用基于速度扰动的最佳增强方法构建的最终说话者自适应系统相对于没有数据增强的基线系统减少了 2.92％绝对（9.3％相对）的词错误率（WER），并在包含 16 位 Dysarthria 患者的测试集上获得了 26.37％的整体 WER。

Jan, 2022

香港中文大学口吃言语识别系统的最新进展

本文介绍了中国香港中文大学对自动语音识别技术中有关于不正常发音语音的识别问题展开的最新研究成果，利用了新型建模技术和 Bayesian model adaptation 等方法，最终取得了乌阿里语（UASpeech）失语症语音库上最低的 25.21% 字误率（WER），并在多方面相对于 2018 年的同类系统均有较大提升

Jan, 2022

使用循环一致性对抗训练改善发音障碍患者的语音可懂度

本研究旨在使用循环一致性生成对抗网络模型将口吃音转换为健康人的语音，使用 18,700 个口吃音和 8,610 个健康对照韩语发音训练了本项目的发生器，进而证明了该基于 GAN 的转换方法对于改善口吃音的可懂度是有用的。

Jan, 2020

时间拉伸对改善口吃病患者的言语能力和识别度的有效性研究

本文中，我们研究了几种现有和一种新型的基于生成对抗网络（GAN）的语音转换方法，用于增强发音不清的语音以提高发音不清的语音识别；我们比较了现有方法的关键组件，以确定最有效的解决方案来改善发音不清的语音识别。我们发现，一些直接的信号处理方法，如固定噪声移除和基于声码器的时间拉伸，可以导致与使用最先进的 GAN 方法相当的发音不清语音识别结果；此外，我们提出的 MaskCycleGAN-VC 与时间拉伸增强的组合方案，能够改善某些发音不清的演讲者与时间拉伸基准相比，使得音素识别结果更加准确。

Jan, 2022

通过对抗性说话者适应实现发音不清语音重建中说话者身份的保留

提出了一种基于 adversarial speaker adaptation 的多任务学习策略，主要任务是 fine-tune 演讲者编码器以有效捕捉身份相关的信息，并通过应用对抗性训练来规范重建语音的分布，以避免引入异常发言模式。结果表明，该方法可在保持语音自然度的同时实现增强的演讲者相似性。

Feb, 2022