细致的耳语：利用自动语音识别的进展进行稳健和可解释的失语症亚型分类

Aug, 2023

细致的耳语：利用自动语音识别的进展进行稳健和可解释的失语症亚型分类

Careful Whisper -- leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification

PDF

Laurin Wagner, Mario Zusag, Theresa Bloder

TL;DR该研究提出了一种全自动的方法来识别语音记录中的语音异常，以帮助评估语音障碍。结合连续时间分类（CTC）和基于编码器 - 解码器的自动语音识别模型，生成丰富的声学和干净的转录本。然后，应用几种自然语言处理方法从这些转录本中提取特征，以产生健康语音的原型。利用这些原型的基本距离度量作为标准机器学习分类器的输入特征，可以实现与人类水平相当的准确性来区分患有失语症的人与健康对照组的记录。此外，可以以 90% 的准确性区分最常见的失语症类型。该流程可直接应用于其他疾病和语言，并显示出从语音诊断标志提取的强大前景。

Abstract

This paper presents a fully automated approach for identifying speech anomalies from voice recordings to aid in the assessment of speech impairments. By combining Connectionist Temporal Classification (CTC) and encoder-decoder-based →

speech anomalies speech impairments automatic speech recognition natural language processing diagnostic speech biomarkers

发现论文，激发创造

基于 E-Branchformer 和多任务学习的失语症语音识别和检测新基准

本篇论文使用最先进的语音识别技术基于 AphsiaBank 数据集，提出了一个新的 Aphasia 语音识别基准，并引入了基于 CTC/Attention 架构的两种多任务学习方法以同时执行两个任务。研究者的系统实现了 97.3% 的说话人级别的检测精度和中度 Aphasia 患者的 11% 的相对 WER 降低率。此外，作者还将这种方法应用到另一个失序语音数据库，即 DementiaBank Pitt 语料库。研究者提供了标准化的数据预处理流程和开源配方，使研究者可以直接比较结果，促进失序语音处理的进步。

May, 2023

谁说了什么？幼儿园课堂言语分析的自动化方法

幼儿在嘈杂的幼儿园教室中度过相当一部分清醒时间。本研究提出了一种使用开源软件的自动框架，通过儿童和教师佩戴的录音设备来分类说话者并进行转录，结果显示进行自动化的识别和转录教师和儿童言语的准确性较高，并对课堂言语进行分析可能有助于儿童语言发展。未来计划使用自然语言处理改进说话者分类，并分析应用自动化框架到大型数据集中的结果。

Jan, 2024

关键词引导的自动语音识别适应

通过上下文偏差对 Whisper 模型进行改进，提出了一种优化行话词识别的新方法。采用关键词检测模型，利用 Whisper 编码器表示动态生成的提示来引导解码器。引入了 KG-Whisper 和 KG-Whisper-PT 两种方法来有效引导解码器，并在特定关键词的识别准确率和整体词错误率上取得了显著的改进。在未见过的语言泛化中，与 Whisper 相比，平均词错误率提高了 5.1%。

Jun, 2024

失败的另一面：探究语音识别误差对随后痴呆症分类的影响

研究使用自我监督学习的深度学习自动语音识别模型在临床设置中处理话语自然性上的困难，并探讨产生的错误对痴呆分类下游任务准确性的影响。结果表明，相对高错误率的自动语音识别系统可以产生更好的下游分类精度而非字面上的听写结果。

Nov, 2022

使用自动语音识别的零样本跨语言失语症检测

通过使用语言无关的语言特征，我们尝试利用英语中可用的数据，并在希腊语和法语等低资源语言中实现零样例失语症检测。我们提出了一种端到端流水线，使用预训练的自动语音识别（ASR）模型，共享跨语言语音表示，并进行微调，以实现我们所需的低资源语言。为了进一步提高我们的 ASR 模型的性能，我们还将其与语言模型结合在一起。我们证明，我们基于 ASR 的端到端流水线提供了与使用人工注释转录的先前设置相当的结果。

Apr, 2022

弱监督不完美转录下的自动语音识别：绕过时间分类

提出了一种利用 Bypass Temporal Classification (BTC) 方法来扩大微调自动语音识别模型 (CNN) 准确性的算法，并且该算法构建了一个基于加权有限状态转换器 (WFST) 的可变性训练图来明确地编码训练期间的不确定性，从而改善了处理精度不高的语音资源库时 ASR 系统的健壮性和准确性。

Jun, 2023

优化多重口吃语音分类：利用 Whisper 的编码器实现自动评估中高效参数减少

通过使用先进的语音识别模型 Whisper 以及 6 层编码器的不同层冻结策略，本研究提出了一种计算高效的模型配置来更有效地对多发性口吃语音进行自动分类，取得了显著的性能，同时发现最后一个编码器层在辨别口吃性不流畅语音方面的贡献，使模型适用于多种方言和语言。

Jun, 2024

使用预训练视觉特征提取器和约束 CTC 解码的提示语音识别多流神经网络结构

本文提出一种基于预训练手部和唇部跟踪器和基于多流递归神经网络的语音解码器的方法，用于自动识别 Cued Speech（一种视觉交流工具），该工具可通过手势和唇读辅助理解口语。该系统在法国 CSF18 数据集上评估，准确率为 70.88％，表现优于 CNN-HMM 译码器并与更复杂的基线方法竞争。

Apr, 2022

集中力的耳语：通过编码器层优化增强口吃语音分类

近年来，在语音处理领域的进展已经引发出具有巨大潜力的尖端深度学习算法，而自动识别口吃症言语是这些研究者采用深度学习技术所致力解决的应用之一。本研究通过旨在聚焦于高效解决方案的重要贡献，解开了 Whisper 在口吃症言语类型分类上的能力，并对较深层编码器的重要性进行了探究。

Nov, 2023

OWSM-CTC：一种用于语音识别、翻译和语种识别的开放式编码器语音基础模型

基于连接主义时间分类（CTC）的新型仅编码器语音模型（OWSM-CTC）在多语言自动语音识别（ASR），语音翻译（ST）和语言识别（LID）任务上取得了有竞争力的结果，并在 ST 上提高了 25％的相对改进，在推断中更为稳健且速度更快，同时也对长形式 ASR 结果有 20 倍的加速。

Feb, 2024