基于 E-Branchformer 和多任务学习的失语症语音识别和检测新基准

May, 2023

基于 E-Branchformer 和多任务学习的失语症语音识别和检测新基准

A New Benchmark of Aphasia Speech Recognition and Detection Based on E-Branchformer and Multi-task Learning

Jiyang Tang, William Chen, Xuankai Chang, Shinji Watanabe, Brian MacWhinney

TL;DR本篇论文使用最先进的语音识别技术基于 AphsiaBank 数据集，提出了一个新的 Aphasia 语音识别基准，并引入了基于 CTC/Attention 架构的两种多任务学习方法以同时执行两个任务。研究者的系统实现了 97.3% 的说话人级别的检测精度和中度 Aphasia 患者的 11% 的相对 WER 降低率。此外，作者还将这种方法应用到另一个失序语音数据库，即 DementiaBank Pitt 语料库。研究者提供了标准化的数据预处理流程和开源配方，使研究者可以直接比较结果，促进失序语音处理的进步。

Abstract

aphasia is a language disorder that affects the speaking ability of millions of patients. This paper presents a new benchmark for aphasia speech

aphasia speech recognition multi-task learning ctc/attention architecture disordered speech processing

发现论文，激发创造

使用自动语音识别的零样本跨语言失语症检测

通过使用语言无关的语言特征，我们尝试利用英语中可用的数据，并在希腊语和法语等低资源语言中实现零样例失语症检测。我们提出了一种端到端流水线，使用预训练的自动语音识别（ASR）模型，共享跨语言语音表示，并进行微调，以实现我们所需的低资源语言。为了进一步提高我们的 ASR 模型的性能，我们还将其与语言模型结合在一起。我们证明，我们基于 ASR 的端到端流水线提供了与使用人工注释转录的先前设置相当的结果。

Apr, 2022

细致的耳语：利用自动语音识别的进展进行稳健和可解释的失语症亚型分类

该研究提出了一种全自动的方法来识别语音记录中的语音异常，以帮助评估语音障碍。结合连续时间分类（CTC）和基于编码器 - 解码器的自动语音识别模型，生成丰富的声学和干净的转录本。然后，应用几种自然语言处理方法从这些转录本中提取特征，以产生健康语音的原型。利用这些原型的基本距离度量作为标准机器学习分类器的输入特征，可以实现与人类水平相当的准确性来区分患有失语症的人与健康对照组的记录。此外，可以以 90% 的准确性区分最常见的失语症类型。该流程可直接应用于其他疾病和语言，并显示出从语音诊断标志提取的强大前景。

Aug, 2023

学习用于多模式失语类型检测的共言手势

我们提出了一种基于语音和相应的手势模式的多模态图神经网络，用于检测失语症类型，通过学习每种失语症类型中语音和手势模态之间的相关性，我们的模型能够生成对手势信息敏感的文本表示，实现了准确的失语症类型检测，实验证明了我们方法的优越性 (达到了 84.2% 的 F1 值)，我们还展示了手势特征优于声学特征，凸显了手势表达在检测失语症类型中的重要性。

Oct, 2023

从语音和文本多模态检测阿尔茨海默病

使用多模式深度学习方法通过语音和相应的文本同时检测多种言语段落的诊断，其模型在 Dementiabank Pitt 语料库上获得了 85.3% 的准确率。

Nov, 2020

基于神经语言学合成数据的转移学习辅助失语症患者完成非典型语言句子

通过为失语症患者建立仿真数据集并将预先训练的 T5 transformer fine-tuned 到这些数据上，我们提出了一种可以帮助这类患者改善交流障碍的辅助技术方法。结果证明，这种基于小规模数据的仿真数据集可以用于开发有效的辅助技术。

Nov, 2022

自然语言对话中的阿尔茨海默病痴呆识别： ADReSS 挑战

本文介绍了 ADReSS Challenge，它提供了一个用于比较自动识别老年痴呆症的语音的不同方法的共享任务。该挑战提供了基准的语音数据集，并定义了两个认知评估任务，即老年痴呆症语音分类任务和神经心理评分回归任务。ADReSS 旨在为语音和语言老年痴呆症研究社区提供一个综合方法比较的平台，以解决当前影响该领域的标准化缺乏问题，并为未来的研究和临床应用提供线索。

Apr, 2020

自然语言处理技术在自发言语中预测阿尔茨海默病方面的比较

该研究使用 Spontaneous Speech 数据集文本转录，使用多种模型对 AD 和正常人的分类和预测进行训练和评估。结果表明，使用 TF-IDF 向量化器作为输入的 SVM 模型和使用 ' DistilBERT ' 的预训练模型作为简单线性模型的嵌入层的模型表现最佳，在分类指标上展示了测试集得分为 0.81-0.82 和 RMSE 为 4.58 的结果。

Jun, 2020

运用预训练语言模型，结合语言复杂度及（不）流利特征来检测阿尔茨海默病患者的自发言语

通过将语言复杂度和（不）流畅特征与预训练语言模型相结合，成功地在 2021 年 ADReSSo（阿尔茨海默病性痴呆症通过自发性言语识别）挑战赛的阿尔茨海默病检测任务中取得了 83.1% 的准确率，这是基准模型的 4.23% 的提高，并且在交叉验证和测试数据上表现出了很好的鲁棒性。

Jun, 2021

基于注意力的语音识别编码器的普通话言语痴呆评估

通过训练一个基于注意力的语音识别模型并在精心设计的图片描述任务上使用，本研究构建了一个适用于普通话使用者的痴呆评估系统，通过提取语音识别模型的编码器并添加一个线性层用于痴呆评估，从 99 名被试中收集普通话语音数据并获取他们的临床评估，成功实现了 92.04% 的阿尔茨海默病检测准确率和 9% 的临床痴呆评分的平均绝对误差。

Oct, 2023

利用患者讲话转录和音频数据探索阿尔茨海默病检测的多模态方法

这项研究通过使用患者的语音和剧本数据，通过预训练语言模型和图神经网络来构建语音剧本的图，并提取特征进行阿尔茨海默病检测，同时引入音频数据和对小数据集进行增强处理，进而将音频特征与文本特征融合，最后尝试将语音剧本转化为音频进行对比学习，研究结果揭示了在使用语音和音频数据进行阿尔茨海默病检测中的挑战和潜在解决方案。

Jul, 2023