基于深度学习的口吃诊断和治疗系统
本文综合检视声学特征、深度学习和统计学为基础的口吃障碍分类方法,针对口吃识别这一已有研究空白,通过跨学科研究来填补这个空缺,并提出未来可能的挑战和发展方向。
Jul, 2021
本文提出了一种基于声学特征而不是语言模型的口吃检测和分类的模型,采用了深度残差网络和双向长短时记忆层,以识别几种形式的口吃,平均漏诊率仅为 10.03%,比现有技术先进了近 27%。
Oct, 2019
本文介绍了 StutterNet,一种新颖的基于深度学习的口吃检测方法,仅依赖于声学信号,使用适用于捕获失聚言语语境方面的时延神经网络,并在包含 100 多个说话者的 UCLASS 口吃数据集上验证,结果表明该方法优于现有方法,参数少并且性能良好。
May, 2021
通过使用最新的波形神经网络技术(wav2vec 2.0)并结合多任务学习,对一个英文语料库中的口吃病识别进行了研究,并在语音识别技术和口吃治疗领域有重要应用。
Apr, 2022
Stutter-TTS is a neural model that can synthesize different types of stuttering utterances for improving automatic speech recognition on stuttered speech by introducing additional tokens to represent stuttering characteristics during training.
Nov, 2022
说话不流畅现象,如填充式停顿或重复,是典型言语流畅的干扰。本文研究语言、声学和多模态方法在自动裁剪检测和分类中的应用,发现基于声学的方法在性能上超过语言方法,同时引入多模态结构提升了检测性能。这些创新方法有助于将自动裁剪检测应用于各种应用场景。
Nov, 2023
通过将自动语音识别系统生成的假设候选项和从音频编码模型提取的声学表示输入到大型语言模型(LLMs)中,我们将多标签异味检测任务作为一种语言建模问题进行了研究,并在包含英语和德语结巴语音的三个数据集上对系统进行了优化,以预测异味标签,实验结果表明我们的系统有效地结合声学和词法信息,在多标签结巴检测任务上取得了有竞争力的结果。
Jun, 2024
本文探讨了用基于注意力机制分类器和多任务学习的改进 wav2vec 2.0 系统,将口吃的检测方法作为多标签问题进行的多语言和跨语料库端到端口吃检测。通过使用包含英语和德语口吃语音的三个数据集的组合以及包含流利塑形的语音的一个数据集来评估方法。实验结果和误差分析表明,跨语料库和多语言数据训练的多标签口吃检测系统取得了有竞争力的结果,但是对多标签样本的性能低于总体检测结果。
May, 2023
本研究介绍了一种基于卷积神经网络的图像识别系统,将语音文件转换为图像并用于智能家居中的语音识别、发言者识别和可懂性评估任务,并提出了基于级联结构的多网络语音识别系统,达到了 92.3% 的准确率。
Jul, 2023
本研究提出一种新方法,使用连续的普通话语音而不是单个元音,来区分四种常见的声音障碍,并使用离散余弦变换和双向 LSTM 网络,通过大型数据库的实验表明,该方法相对于使用单个元音的系统有显著的准确度和召回率提高以及提高了系统学习声音障碍的能力。
Feb, 2022