基于深度学习的口吃诊断和治疗系统

MMJul, 2020

基于深度学习的口吃诊断和治疗系统

Stutter Diagnosis and Therapy System Based on Deep Learning

Gresha Bhatia, Binoy Saha, Mansi Khamkar, Ashish Chandwani, Reshma Khot

TL;DR本文介绍了使用门控递归 CNN 和 SVM 实现口吃诊断代理和治疗推荐代理的系统，并探讨了其实验结果和关键发现。

Abstract

stuttering, also called stammering, is a communication disorder that breaks the continuity of the speech. This program of work is an attempt to develop →

stuttering communication disorder automatic recognition procedures speech therapies gated recurrent cnn

发现论文，激发创造

机器学习用于口吃识别：综述、挑战和未来方向

本文综合检视声学特征、深度学习和统计学为基础的口吃障碍分类方法，针对口吃识别这一已有研究空白，通过跨学科研究来填补这个空缺，并提出未来可能的挑战和发展方向。

Jul, 2021

使用深度残差网络和双向长短时记忆检测多种语音不流畅

本文提出了一种基于声学特征而不是语言模型的口吃检测和分类的模型，采用了深度残差网络和双向长短时记忆层，以识别几种形式的口吃，平均漏诊率仅为 10.03％，比现有技术先进了近 27%。

Oct, 2019

StutterNet: 使用时间延迟神经网络进行口吃检测

本文介绍了 StutterNet，一种新颖的基于深度学习的口吃检测方法，仅依赖于声学信号，使用适用于捕获失聚言语语境方面的时延神经网络，并在包含 100 多个说话者的 UCLASS 口吃数据集上验证，结果表明该方法优于现有方法，参数少并且性能良好。

May, 2021

利用 wav2vec 2.0 检测口吃治疗中的语音障碍

通过使用最新的波形神经网络技术（wav2vec 2.0）并结合多任务学习，对一个英文语料库中的口吃病识别进行了研究，并在语音识别技术和口吃治疗领域有重要应用。

Apr, 2022

Stutter-TTS：受控制的口吃语音合成与改进的口吃语音识别

Stutter-TTS is a neural model that can synthesize different types of stuttering utterances for improving automatic speech recognition on stuttered speech by introducing additional tokens to represent stuttering characteristics during training.

Nov, 2022

自动识别未转录语音中的干扰

说话不流畅现象，如填充式停顿或重复，是典型言语流畅的干扰。本文研究语言、声学和多模态方法在自动裁剪检测和分类中的应用，发现基于声学的方法在性能上超过语言方法，同时引入多模态结构提升了检测性能。这些创新方法有助于将自动裁剪检测应用于各种应用场景。

Nov, 2023

大型语言模型用于口吃语音的错断检测

通过将自动语音识别系统生成的假设候选项和从音频编码模型提取的声学表示输入到大型语言模型（LLMs）中，我们将多标签异味检测任务作为一种语言建模问题进行了研究，并在包含英语和德语结巴语音的三个数据集上对系统进行了优化，以预测异味标签，实验结果表明我们的系统有效地结合声学和词法信息，在多标签结巴检测任务上取得了有竞争力的结果。

Jun, 2024

口吃往往不是孤立的事件 —— 将口吃检测作为多标签问题的跨语料库研究

本文探讨了用基于注意力机制分类器和多任务学习的改进 wav2vec 2.0 系统，将口吃的检测方法作为多标签问题进行的多语言和跨语料库端到端口吃检测。通过使用包含英语和德语口吃语音的三个数据集的组合以及包含流利塑形的语音的一个数据集来评估方法。实验结果和误差分析表明，跨语料库和多语言数据训练的多标签口吃检测系统取得了有竞争力的结果，但是对多标签样本的性能低于总体检测结果。

May, 2023

用于端到端言语处理任务的伽马通音谱表示：语音识别、说话人识别和清晰度评估

本研究介绍了一种基于卷积神经网络的图像识别系统，将语音文件转换为图像并用于智能家居中的语音识别、发言者识别和可懂性评估任务，并提出了基于级联结构的多网络语音识别系统，达到了 92.3% 的准确率。

Jul, 2023

改善病理性语音障碍学习的连续语音

本研究提出一种新方法，使用连续的普通话语音而不是单个元音，来区分四种常见的声音障碍，并使用离散余弦变换和双向 LSTM 网络，通过大型数据库的实验表明，该方法相对于使用单个元音的系统有显著的准确度和召回率提高以及提高了系统学习声音障碍的能力。

Feb, 2022