使用深度残差网络和双向长短时记忆检测多种语音不流畅
本文介绍了 StutterNet,一种新颖的基于深度学习的口吃检测方法,仅依赖于声学信号,使用适用于捕获失聚言语语境方面的时延神经网络,并在包含 100 多个说话者的 UCLASS 口吃数据集上验证,结果表明该方法优于现有方法,参数少并且性能良好。
May, 2021
本文综合检视声学特征、深度学习和统计学为基础的口吃障碍分类方法,针对口吃识别这一已有研究空白,通过跨学科研究来填补这个空缺,并提出未来可能的挑战和发展方向。
Jul, 2021
本文提出了一种利用双向 LSTM 神经网络进行自修复检测的方法,并使用模式匹配特征来降低对于词汇量的敏感度,提高了模型的性能。实验结果表明,在 Switchboard 语料库中,模型在标准的自修复检测任务和纠正检测任务中均表现出了出色的性能,特别是将非重复性的自修复鉴别效果提升明显。
Apr, 2016
通过将自动语音识别系统生成的假设候选项和从音频编码模型提取的声学表示输入到大型语言模型(LLMs)中,我们将多标签异味检测任务作为一种语言建模问题进行了研究,并在包含英语和德语结巴语音的三个数据集上对系统进行了优化,以预测异味标签,实验结果表明我们的系统有效地结合声学和词法信息,在多标签结巴检测任务上取得了有竞争力的结果。
Jun, 2024
本文提出一种多任务基于 LSTM 的模型,用于增量检测口吃结构,可以连接到任何组件以进行增量解释,或者在产生当前话语时用于 “清理” 当前话语。我们在 Switchboard 对话行为语料库上训练了该系统,并展示了其在该数据集上的准确性。我们的模型在 SWDA 上比以前的神经网络基于增量的方法表现优异,同时采用较简单的架构。为了测试模型的泛化潜力,我们在没有任何附加训练的情况下,在 bAbI + 数据集上评估了相同的模型。这表明我们的方法具有很好的泛化潜力,并更加详细地阐明了哪些类型的口吃可能适合于领域通用处理。
Oct, 2018
本文介绍了两种基于多模态融合的深度学习模型,同时使用 ASR 转录的语音和声纹数据,对结构化诊断任务中的说话人是否存在阿尔茨海默病进行分类,并评估了 ADReSSo 挑战 2021 数据,其中最佳模型 BiLSTM 采用了包括单词、单词概率、口吃特征、停顿信息和各种声学特征的 highway 层,实现了 84% 的准确率和 4.26 的 MMSE 认知分数预测 RSME 误差。通过使用多模态方法和单词概率、口吃和停顿信息,我们的模型在预测认知衰退时表现出了提高,并且对于使用多模态融合和门控技术进行的 AD 分类,我们展示了相当大的收益。
Jun, 2021
本文提出了一种端到端的深度学习架构用于字级视觉语音识别,该方法结合了时空卷积、残量和双向长短时记忆网络,该网络在 Lipreading In-The-Wild 基准上获得了 83.0 的字级准确率,相较于当前的最先进方法有 6.8 的绝对提升,且在训练和测试过程中均未使用有关单词边界的信息。
Mar, 2017
通过使用先进的语音识别模型 Whisper 以及 6 层编码器的不同层冻结策略,本研究提出了一种计算高效的模型配置来更有效地对多发性口吃语音进行自动分类,取得了显著的性能,同时发现最后一个编码器层在辨别口吃性不流畅语音方面的贡献,使模型适用于多种方言和语言。
Jun, 2024
通过使用最新的波形神经网络技术(wav2vec 2.0)并结合多任务学习,对一个英文语料库中的口吃病识别进行了研究,并在语音识别技术和口吃治疗领域有重要应用。
Apr, 2022