通过对抗性说话者适应实现发音不清语音重建中说话者身份的保留

Feb, 2022

通过对抗性说话者适应实现发音不清语音重建中说话者身份的保留

Speaker Identity Preservation in Dysarthric Speech Reconstruction by Adversarial Speaker Adaptation

Disong Wang, Songxiang Liu, Xixin Wu, Hui Lu, Lifa Sun...

TL;DR提出了一种基于 adversarial speaker adaptation 的多任务学习策略，主要任务是 fine-tune 演讲者编码器以有效捕捉身份相关的信息，并通过应用对抗性训练来规范重建语音的分布，以避免引入异常发言模式。结果表明，该方法可在保持语音自然度的同时实现增强的演讲者相似性。

Abstract

dysarthric speech reconstruction (DSR), which aims to improve the quality of dysarthric speech, remains a challenge, not only because we need to restore the speech to be normal, but also must preserve the speaker's identity. The speaker representation extracted by the →

dysarthric speech reconstruction speaker encoder adversarial speaker adaptation identity-related information abnormal speaking patterns

发现论文，激发创造

UNIT-DSR: 使用语音单位规范化的言语重建系统

Dysarthric speech reconstruction systems have improved through NED-based approaches, but a Unit-DSR system utilizing speech units achieves better content restoration and training efficiency, outperforming baselines with robustness against speed perturbation and noise.

Jan, 2024

面向发音障碍和老年人的个性化对抗性数据增强语音识别

本文提出使用基于 GAN 的数据增强方法，通过分析非标准语音（如老年人和 dysarthric 患者的语音）的光谱和时间差异可模拟增强数据，提高了 UASpeech、TORGO、Pitt 和 JCCOCC MoCA 等数据集上 TDNN 和 Conformer ASR 系统的训练精度，相对于基于速度的数据增强方法，可使 TORGO 和 DementiaBank 数据集的 WER 分别提高 9.61％和 6.4％。

May, 2022

CoLM-DSR：利用神经编码语言建模重建多模态发音障碍语音

通过多模型 Dysarthric speech reconstruction（DSR）模型，利用神经编解码器语言建模提高重建结果，尤其在讲话者相似性和韵律自然性方面有显著改进。

Jun, 2024

语音识别中的隐私保护对抗性表征学习：现实还是幻象？

本文旨在研究自动语音识别中隐私保护的问题，提出了利用深度编码器 - 解码器架构中的预训练技术来保护说话人身份，通过对开放和封闭说话人集的说话人识别和验证实验，论证了对抗训练架构可以显著减少封闭集的分类精度，提高个人隐私保护的效果。

Nov, 2019

使用光谱时域深度特征进行言语适应，在语音识别中应用于发音困难和老年人

该研究提出了一种基于频谱分解的深度特征提取方法，用于通过个性化的演讲者自适应技术提高自动语音识别系统对肌肉发音障碍者和老年人的识别准确率。通过在四项任务中的实验表明，在应用该技术后，识别准确率有了显著的提高。

Feb, 2022

为 ASR 数据增强精确合成口吃病患者语音

该研究提出了一种新的口吃性语音合成方法，用于自动语音识别 (ASR) 训练数据的增强，并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性，特别是对于严重口吃者。

Aug, 2023

利用言语障碍严重程度进行口吃性言语识别

本文提出了一套新的方法，即使用多任务训练，包含严重程度预测误差、说话者 - 严重程度感知辅助特征适应以及基于与严重度有关和说话者身份有关的 LHUC 转换来进行发音障碍语音识别，结果实验表明将额外的语音障碍严重度纳入最先进的混合 DNN、E2E Conformer 和预训练的 Wav2vec 2.0 ASR 系统，可以产生显著的 WER 下降，最低 WER 达到 17.82％。

May, 2023

使用自监督转换和多任务学习的语音无关语言障碍严重程度分类

通过使用变压器模型与多任务学习，研究论文提出了一种自动评估口吃严重程度的新框架，并比较不同方法之间的性能，以实现客观、可重复、易接触、标准化和成本效益高的自动评估方案。

Feb, 2024

使用对抗和基于信号增强技术的阿拉伯语运动失调言语识别

本文旨在通过多阶段增强方法来改进阿拉伯语言障碍患者的自动语音识别性能，具体包括使用基于信号的方法生成阿拉伯语言障碍患者的语音，并通过对英语语言障碍患者语音数据进行训练以进行多语言扩充，以及在不同的语音障碍程度下进行微调和文本纠正策略。通过这些方法，本文在阿拉伯语言障碍患者的语音数据集上实现了 18% 的词错误率和 17.2% 的字符错误率，相比只针对健康数据训练的基础模型，实现了 81.8% 的 WER 提升，并在真实的英文语言障碍患者语音数据集上实现了 124% 的 WER 提升。

Jun, 2023

香港中文大学口吃言语识别系统的最新进展

本文介绍了中国香港中文大学对自动语音识别技术中有关于不正常发音语音的识别问题展开的最新研究成果，利用了新型建模技术和 Bayesian model adaptation 等方法，最终取得了乌阿里语（UASpeech）失语症语音库上最低的 25.21% 字误率（WER），并在多方面相对于 2018 年的同类系统均有较大提升

Jan, 2022