发现发音障碍语音中的不适当停顿的方法与规模庞大的语音识别技术

Feb, 2024

发现发音障碍语音中的不适当停顿的方法与规模庞大的语音识别技术

Inappropriate Pause Detection In Dysarthric Speech Using Large-Scale Speech Recognition

Jeehyun Lee, Yerin Choi, Tae-Jin Song, Myoung-Wan Koo

TL;DR通过使用自动语音识别 (ASR) 模型将语音转换为带有暂停标签的文本，我们在发音障碍患者的语音中扩展了一个大规模的语音识别模型，实现了对不恰当暂停的检测，该方法通过与言语治疗专家合作建立标注标准以及设计任务来提高检测效果，并引入了一个针对该任务的评估指标来评价结果。

Abstract

dysarthria, a common issue among stroke patients, severely impacts speech intelligibility. Inappropriate pauses are crucial indicators in severity assessment and speech-language therapy. We propose to extend a large-scale →

dysarthria inappropriate pause detection speech recognition labeling strategy asr model

发现论文，激发创造

使用听觉、词汇、语调和停顿特征对阿尔茨海默病痴呆进行识别并抗干扰

本文介绍了两种基于多模态融合的深度学习模型，同时使用 ASR 转录的语音和声纹数据，对结构化诊断任务中的说话人是否存在阿尔茨海默病进行分类，并评估了 ADReSSo 挑战 2021 数据，其中最佳模型 BiLSTM 采用了包括单词、单词概率、口吃特征、停顿信息和各种声学特征的 highway 层，实现了 84％的准确率和 4.26 的 MMSE 认知分数预测 RSME 误差。通过使用多模态方法和单词概率、口吃和停顿信息，我们的模型在预测认知衰退时表现出了提高，并且对于使用多模态融合和门控技术进行的 AD 分类，我们展示了相当大的收益。

Jun, 2021

为 ASR 数据增强精确合成口吃病患者语音

该研究提出了一种新的口吃性语音合成方法，用于自动语音识别 (ASR) 训练数据的增强，并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性，特别是对于严重口吃者。

Aug, 2023

运用基于 ASR 的转录进行阿尔茨海默病分类：探究标点符号和停顿的影响

本研究使用最新的自动语音识别技术，研究如何应用暂停符号和自动标点符号进行阿尔茨海默病分类，实验结果表明，这两种技术与手工转录结合可有效识别阿尔茨海默病。

Jun, 2023

失败的另一面：探究语音识别误差对随后痴呆症分类的影响

研究使用自我监督学习的深度学习自动语音识别模型在临床设置中处理话语自然性上的困难，并探讨产生的错误对痴呆分类下游任务准确性的影响。结果表明，相对高错误率的自动语音识别系统可以产生更好的下游分类精度而非字面上的听写结果。

Nov, 2022

自动识别未转录语音中的干扰

说话不流畅现象，如填充式停顿或重复，是典型言语流畅的干扰。本文研究语言、声学和多模态方法在自动裁剪检测和分类中的应用，发现基于声学的方法在性能上超过语言方法，同时引入多模态结构提升了检测性能。这些创新方法有助于将自动裁剪检测应用于各种应用场景。

Nov, 2023

大型语言模型用于口吃语音的错断检测

通过将自动语音识别系统生成的假设候选项和从音频编码模型提取的声学表示输入到大型语言模型（LLMs）中，我们将多标签异味检测任务作为一种语言建模问题进行了研究，并在包含英语和德语结巴语音的三个数据集上对系统进行了优化，以预测异味标签，实验结果表明我们的系统有效地结合声学和词法信息，在多标签结巴检测任务上取得了有竞争力的结果。

Jun, 2024

使用预训练语言模型的时长感知暂停插入多说话人文本转语音

本文提出一种基于预训练语言模型的更加高效的暂停插入框架，运用双向变压器编码器表示来注入演讲者嵌入以捕捉不同演讲者的特点，并使用持续时间感知的暂停插入以获得更自然的多人演讲，测试结果表明该模型提高了合成语音的节奏性、暂停插入的精度和召回率。

Feb, 2023

使用自监督模型和多任务学习进行发音障碍语音的自动严重程度评估

使用自监督模型结合多任务学习的新颖自动程度评估方法在不充分的数据下对 Dysarthric 发音进行评估，该方法使用 Wav2vec 2.0 XLS-R 以及手工制作的声学特征和机器学习分类器，在 Korean dysarthric speech QoLT 数据库上相较传统基线方法提高了 1.25% 的 F1 值，并且相较于没有 ASR 头的模型提高了 10.61% 的相对百分比增长。我们还通过分析潜在表示和正则化效应来展示多任务学习如何影响重度分类表现。

Oct, 2022

使用多说话人 TTS 合成咬字不清语音并应用于咬字不清语音识别

本文旨在通过使用多说话人端到端 TTS 合成系统为 DNN-HMM 建立训练提供合成语音，其中添加语音障碍严重性等控制参数以继续改进多语音说话人端到端 TTS 系统，实验表明：使用合成的语音，对 DNN-HMM ASR 进行训练可以将识别速率提高 12.2％，且添加严重性级别和暂停插入控制参数可以将错误率降低 6.5％。

Jan, 2022

使用 Transformer 进行少样本处理的发音障碍语音可理解性水平分类

通过使用具有有限数据的 Transformer 模型，本研究旨在准确分类失语和提供有关可理解性水平的信息，同时解决以往研究中存在的数据泄漏问题，并表明所采用的多课程模型在特定数据集上获得了 67% 的准确度。

Sep, 2023