儿童语音的原始超声图像自动分级分类

Feb, 2024

儿童语音的原始超声图像自动分级分类

Automated Classification of Phonetic Segments in Child Speech Using Raw Ultrasound Imaging

Saja Al Ani, Joanne Cleland, Ahmed Zoha

TL;DR自动检测语音障碍的提升方法：利用超声舌头成像技术结合深度学习模型，在语音障碍的分类中取得了显著的改善结果，并有助于提高语音治疗诊所中的超声舌头成像分类的效率。

Abstract

speech sound disorder (SSD) is defined as a persistent impairment in speech sound production leading to reduced speech intelligibility and hindered verbal communication. Early recognition and intervention of children with SSD and timely referral to speech and language therapists (SLTs)

speech sound disorder automated detection ultrasound tongue imaging deep-learning models speech therapy clinics

发现论文，激发创造

儿童语音中原始超声波音素段的说话人无关分类

本文研究使用超声舌头成像技术对语音产生的过程进行可视化，并通过多种训练方案探讨了从原始超声记录中对语音的分类方法，研究表明，提供最少的额外讲话者信息可以有助于模型更好地推广到未知的讲话者中。

Jul, 2019

基于 DNN 的声学到发音器反演，使用超声舌像

本研究采用深度神经网络方法，通过分析声音信号，逆推计算日常生活中使用的超声成像技术下的舌头构造，研究采用特征点空间和原始超声图像两种方式表征舌头构造信息的效果，并用 MSE、SSIM 等质量指标对结果进行测试与总结。

Apr, 2019

面向言语音声障碍者的基于人工智能的自动语音治疗工具：一项系统文献综述

本文综述了以基于人工智能的语音治疗工具为主的发音障碍治疗，其中最常见的障碍是语音障碍。我们发现，大多数研究者建议设计有完全自动化功能的工具，但只有少数研究与专业治疗师进行比较。

Apr, 2022

基于空间变换网络的舌头超声无声语音界面适应性

利用深度学习算法从口腔运动数据中合成出可理解的语音，但相关模型区分度较高，对不同用户快速切换不便。该论文中利用空间变换网络（STN）模块扩展深度网络提高使用噪声下的语音接口模型的适应性，该方法有效降低了标准误差并提高了同一发言者不同录音周期的性能。

May, 2023

自动语音识别（ASR）用于韩国儿童言语音障碍发音诊断

本研究提出了一种自动语音识别模型，旨在诊断具有言语音韵障碍（SSDs）的儿童的发音问题，以替代临床操作中的人工转录。该模型使用 wav2vec 2.0 XLS-R 模型进行改进，以识别实际发音而不是已有单词，并通过与人工标注相匹配的预测准确性达到约 90% 的水平。尽管该模型在识别不清晰发音方面仍需改进，但本研究表明 ASR 模型能够简化临床领域中的复杂发音错误诊断流程。

Mar, 2024

利用跨领域和跨语言的超声舌影像特征进行老年人和发音障碍者语音识别

本文提出了一种跨领域和跨语言的 A2A 反演方法，利用 24 小时 TaL 语料库的并行音频和超声舌成像数据，将其在 A2A 模型预训练时进行交叉领域和跨语言适应，以产生基于超声口腔影像的发音特征。实验表明，将生成的发音特征纳入自动语音识别系统中，相对于仅使用声学特征的基线 TDNN 和 Conformer ASR 系统，应用数据增强、扬声器适应和跨系统多通道解码后，单词或字符错误率降低了最多 4.75％、2.59％和 2.07％的绝对误差（相对误差最高可达 14.69％、10.64％和 22.72％）。

Jun, 2022

病理语音检测的自监督学习

语音产生是一个复杂的现象，通过思维加工、运动规划和发音运动的执行，大脑协调一系列过程。然而，这些多种过程的复杂执行容易受到各种神经退行性病理性言语障碍的影响和干扰，如帕金森病，导致话语障碍、运动障碍等情况。这些障碍导致异常的言语模式和不清晰的表达。为了解决这些挑战，已提出了几种自动病理性言语检测方法，主要侧重于输入表示和分类器的应用。由于数据有限，检测的性能仍然不甚理想。自我监督学习嵌入，如 wav2vec2 及其多语言版本，被认为是提高性能的有希望途径。这些嵌入利用自我监督学习技术从音频数据中提取丰富的表征，从而为解决标签数据稀缺性所带来的限制提供了潜在的解决方案。

May, 2024

将语音信号转换为超声舌影像数据的音频 - 文本扩散模型

本文提出了一种音频文本扩散模型用于 UTI 数据生成任务，通过编码个人的固有声学特征和与舌头运动相关的 ASR 转录，最终生成了具有清晰舌轮廓的高质量 UTI 数据，对于语言分析和临床评估至关重要。

Mar, 2024

利用预训练语音嵌入理解 ASD 儿童的口语语言发展

本研究旨在提出使用语音处理技术进行自动化评估儿童口语发展的应用，并通过对自然语言样本分析，对使用智能辅助诊断提供了可行性，其实验结果表明 F1 宏分数分别为 82.6% 和 67.8%。

May, 2023

关于自动发音障碍语音评估可靠性的研究

自动化失语症评估可以开发低成本而有效的工具来解决手动和主观评估的当前局限，但目前的方法是否依赖于与失语症相关的说话模式或外部因素尚不清楚。本文研究噪音对记录的失语症的影响，设计并实现了一种新的方法来可视化和比较特征提取器和模型，使用 UA-Speech 数据集，旨在提高研究社区对建立可靠的自动失语症评估系统要求的认识。

Jun, 2023