利用跨领域和跨语言的超声舌影像特征进行老年人和发音障碍者语音识别

Jun, 2022

利用跨领域和跨语言的超声舌影像特征进行老年人和发音障碍者语音识别

Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition

PDF

Shujie Hu, Xurong Xie, Mengzhe Geng, Mingyu Cui, Jiajun Deng...

TL;DR本文提出了一种跨领域和跨语言的 A2A 反演方法，利用 24 小时 TaL 语料库的并行音频和超声舌成像数据，将其在 A2A 模型预训练时进行交叉领域和跨语言适应，以产生基于超声口腔影像的发音特征。实验表明，将生成的发音特征纳入自动语音识别系统中，相对于仅使用声学特征的基线 TDNN 和 Conformer ASR 系统，应用数据增强、扬声器适应和跨系统多通道解码后，单词或字符错误率降低了最多 4.75％、2.59％和 2.07％的绝对误差（相对误差最高可达 14.69％、10.64％和 22.72％）。

Abstract

articulatory features are inherently invariant to acoustic signal distortion and have been successfully incorporated into automatic speech recognition (ASR) systems designed for normal speech. Their practical app

automatic speech recognition elderly speech disordered speech articulatory features ultrasound tongue imaging

发现论文，激发创造

利用跨领域声 — 口倒置特征进行非正常言语识别

该论文提出了一种跨领域的声学 - 发音反演方法，使用神经网络对发音特征进行建模，通过应用该方法改善了语音障碍患者的语音识别表现。

Mar, 2022

基于 DNN 的声学到发音器反演，使用超声舌像

本研究采用深度神经网络方法，通过分析声音信号，逆推计算日常生活中使用的超声成像技术下的舌头构造，研究采用特征点空间和原始超声图像两种方式表征舌头构造信息的效果，并用 MSE、SSIM 等质量指标对结果进行测试与总结。

Apr, 2019

将语音信号转换为超声舌影像数据的音频 - 文本扩散模型

本文提出了一种音频文本扩散模型用于 UTI 数据生成任务，通过编码个人的固有声学特征和与舌头运动相关的 ASR 转录，最终生成了具有清晰舌轮廓的高质量 UTI 数据，对于语言分析和临床评估至关重要。

Mar, 2024

探索自监督预训练 ASR 模型用于发音障碍和老年人的语音识别

本文探讨了将领域适应 SSL 预训练模型整合到 TDNN 和 Conformer ASR 系统中，以识别老年人和患有发音障碍的人的语音，并通过实验获得了很好的效果。

Feb, 2023

使用光谱时域深度特征进行言语适应，在语音识别中应用于发音困难和老年人

该研究提出了一种基于频谱分解的深度特征提取方法，用于通过个性化的演讲者自适应技术提高自动语音识别系统对肌肉发音障碍者和老年人的识别准确率。通过在四项任务中的实验表明，在应用该技术后，识别准确率有了显著的提高。

Feb, 2022

跨语言自监督语音表征，提高口吃症患者的语音识别能力

使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统，对患有言语障碍的英语、西班牙语和意大利语使用者进行识别，结果表明相较于 Fbank 特征，使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。

Apr, 2022

基于语用学和预训练特征的跨语言阿尔茨海默氏病检测

该研究利用 openSmile 工具包和 XLSR-53 提取声学特征，将语音转录成文本后提取语言特征进行 AD 患者检测，结果显示该方法能够通过自发性说话实现自动多语言阿尔茨海默病检测，分类准确率为 69.6%，均方根误差为 4.788。

Mar, 2023

儿童语音中原始超声波音素段的说话人无关分类

本文研究使用超声舌头成像技术对语音产生的过程进行可视化，并通过多种训练方案探讨了从原始超声记录中对语音的分类方法，研究表明，提供最少的额外讲话者信息可以有助于模型更好地推广到未知的讲话者中。

Jul, 2019

通过 MRI 标记的 4D 运动场的跨模态翻译进行语音运动异常检测

通过使用仅对健康人群进行训练的深度跨模态翻译器，实现对语音运动异常及其对应语音声学的检测，以区分健康人群和患者，从而提高对语音质量的评估和治疗策略的发展。

Feb, 2024

超声舌像的自动视听同步

本文介绍了一种基于神经网络的自动同步超声波和语音数据方法，首先研究了专家对同步误差的容忍度，然后训练网络以实现数据同步。在多个领域的数据集上进行训练，该方法在同一领域内的数据上的精度大于 92.4％，并在新领域的数据上进行了测试，结果表明该方法的输出优于硬件同步数据 79.3％的时间。

May, 2021