使用深度残差网络和双向长短时记忆检测多种语音不流畅

Oct, 2019

使用深度残差网络和双向长短时记忆检测多种语音不流畅

Detecting Multiple Speech Disfluencies using a Deep Residual Network with Bidirectional Long Short-Term Memory

Tedd Kourkounakis, Amirhossein Hajavi, Ali Etemad

TL;DR本文提出了一种基于声学特征而不是语言模型的口吃检测和分类的模型，采用了深度残差网络和双向长短时记忆层，以识别几种形式的口吃，平均漏诊率仅为 10.03％，比现有技术先进了近 27%。

Abstract

stuttering is a speech impediment affecting tens of millions of people on an everyday basis. Even with its commonality, there is minimal data and research on the identification and →

stuttering speech impediment detection classification acoustic features

发现论文，激发创造

StutterNet: 使用时间延迟神经网络进行口吃检测

本文介绍了 StutterNet，一种新颖的基于深度学习的口吃检测方法，仅依赖于声学信号，使用适用于捕获失聚言语语境方面的时延神经网络，并在包含 100 多个说话者的 UCLASS 口吃数据集上验证，结果表明该方法优于现有方法，参数少并且性能良好。

May, 2021

机器学习用于口吃识别：综述、挑战和未来方向

本文综合检视声学特征、深度学习和统计学为基础的口吃障碍分类方法，针对口吃识别这一已有研究空白，通过跨学科研究来填补这个空缺，并提出未来可能的挑战和发展方向。

Jul, 2021

使用双向 LSTM 进行犹豫检测

本文提出了一种利用双向 LSTM 神经网络进行自修复检测的方法，并使用模式匹配特征来降低对于词汇量的敏感度，提高了模型的性能。实验结果表明，在 Switchboard 语料库中，模型在标准的自修复检测任务和纠正检测任务中均表现出了出色的性能，特别是将非重复性的自修复鉴别效果提升明显。

Apr, 2016

基于深度学习的口吃诊断和治疗系统

本文介绍了使用门控递归 CNN 和 SVM 实现口吃诊断代理和治疗推荐代理的系统，并探讨了其实验结果和关键发现。

Jul, 2020

大型语言模型用于口吃语音的错断检测

通过将自动语音识别系统生成的假设候选项和从音频编码模型提取的声学表示输入到大型语言模型（LLMs）中，我们将多标签异味检测任务作为一种语言建模问题进行了研究，并在包含英语和德语结巴语音的三个数据集上对系统进行了优化，以预测异味标签，实验结果表明我们的系统有效地结合声学和词法信息，在多标签结巴检测任务上取得了有竞争力的结果。

Jun, 2024

对话系统中面向领域通用口语断续检测的多任务学习

本文提出一种多任务基于 LSTM 的模型，用于增量检测口吃结构，可以连接到任何组件以进行增量解释，或者在产生当前话语时用于 “清理” 当前话语。我们在 Switchboard 对话行为语料库上训练了该系统，并展示了其在该数据集上的准确性。我们的模型在 SWDA 上比以前的神经网络基于增量的方法表现优异，同时采用较简单的架构。为了测试模型的泛化潜力，我们在没有任何附加训练的情况下，在 bAbI + 数据集上评估了相同的模型。这表明我们的方法具有很好的泛化潜力，并更加详细地阐明了哪些类型的口吃可能适合于领域通用处理。

Oct, 2018

使用听觉、词汇、语调和停顿特征对阿尔茨海默病痴呆进行识别并抗干扰

本文介绍了两种基于多模态融合的深度学习模型，同时使用 ASR 转录的语音和声纹数据，对结构化诊断任务中的说话人是否存在阿尔茨海默病进行分类，并评估了 ADReSSo 挑战 2021 数据，其中最佳模型 BiLSTM 采用了包括单词、单词概率、口吃特征、停顿信息和各种声学特征的 highway 层，实现了 84％的准确率和 4.26 的 MMSE 认知分数预测 RSME 误差。通过使用多模态方法和单词概率、口吃和停顿信息，我们的模型在预测认知衰退时表现出了提高，并且对于使用多模态融合和门控技术进行的 AD 分类，我们展示了相当大的收益。

Jun, 2021

将 Residual Networks 与 LSTMs 组合用于唇语识别

本文提出了一种端到端的深度学习架构用于字级视觉语音识别，该方法结合了时空卷积、残量和双向长短时记忆网络，该网络在 Lipreading In-The-Wild 基准上获得了 83.0 的字级准确率，相较于当前的最先进方法有 6.8 的绝对提升，且在训练和测试过程中均未使用有关单词边界的信息。

Mar, 2017

优化多重口吃语音分类：利用 Whisper 的编码器实现自动评估中高效参数减少

通过使用先进的语音识别模型 Whisper 以及 6 层编码器的不同层冻结策略，本研究提出了一种计算高效的模型配置来更有效地对多发性口吃语音进行自动分类，取得了显著的性能，同时发现最后一个编码器层在辨别口吃性不流畅语音方面的贡献，使模型适用于多种方言和语言。

Jun, 2024

利用 wav2vec 2.0 检测口吃治疗中的语音障碍

通过使用最新的波形神经网络技术（wav2vec 2.0）并结合多任务学习，对一个英文语料库中的口吃病识别进行了研究，并在语音识别技术和口吃治疗领域有重要应用。

Apr, 2022