运用基于 ASR 的转录进行阿尔茨海默病分类:探究标点符号和停顿的影响
本文介绍了两种基于多模态融合的深度学习模型,同时使用 ASR 转录的语音和声纹数据,对结构化诊断任务中的说话人是否存在阿尔茨海默病进行分类,并评估了 ADReSSo 挑战 2021 数据,其中最佳模型 BiLSTM 采用了包括单词、单词概率、口吃特征、停顿信息和各种声学特征的 highway 层,实现了 84% 的准确率和 4.26 的 MMSE 认知分数预测 RSME 误差。通过使用多模态方法和单词概率、口吃和停顿信息,我们的模型在预测认知衰退时表现出了提高,并且对于使用多模态融合和门控技术进行的 AD 分类,我们展示了相当大的收益。
Jun, 2021
使用多模式深度学习方法通过语音和相应的文本同时检测多种言语段落的诊断,其模型在 Dementiabank Pitt 语料库上获得了 85.3% 的准确率。
Nov, 2020
该研究使用 Spontaneous Speech 数据集文本转录,使用多种模型对 AD 和正常人的分类和预测进行训练和评估。结果表明,使用 TF-IDF 向量化器作为输入的 SVM 模型和使用 ' DistilBERT ' 的预训练模型作为简单线性模型的嵌入层的模型表现最佳,在分类指标上展示了测试集得分为 0.81-0.82 和 RMSE 为 4.58 的结果。
Jun, 2020
这项研究通过使用患者的语音和剧本数据,通过预训练语言模型和图神经网络来构建语音剧本的图,并提取特征进行阿尔茨海默病检测,同时引入音频数据和对小数据集进行增强处理,进而将音频特征与文本特征融合,最后尝试将语音剧本转化为音频进行对比学习,研究结果揭示了在使用语音和音频数据进行阿尔茨海默病检测中的挑战和潜在解决方案。
Jul, 2023
本文介绍了 ADReSS Challenge,它提供了一个用于比较自动识别老年痴呆症的语音的不同方法的共享任务。该挑战提供了基准的语音数据集,并定义了两个认知评估任务,即老年痴呆症语音分类任务和神经心理评分回归任务。ADReSS 旨在为语音和语言老年痴呆症研究社区提供一个综合方法比较的平台,以解决当前影响该领域的标准化缺乏问题,并为未来的研究和临床应用提供线索。
Apr, 2020
该研究利用 openSmile 工具包和 XLSR-53 提取声学特征,将语音转录成文本后提取语言特征进行 AD 患者检测,结果显示该方法能够通过自发性说话实现自动多语言阿尔茨海默病检测,分类准确率为 69.6%,均方根误差为 4.788。
Mar, 2023
研究使用自我监督学习的深度学习自动语音识别模型在临床设置中处理话语自然性上的困难,并探讨产生的错误对痴呆分类下游任务准确性的影响。结果表明,相对高错误率的自动语音识别系统可以产生更好的下游分类精度而非字面上的听写结果。
Nov, 2022
不完整的自动语音识别 ASR 转录有效捕捉与痴呆症相关的语言异常,提高分类任务的准确性。ASR 和分类模型之间的协同作用凸显了 ASR 在评估认知损害和相关临床应用中的潜在价值。
Jan, 2024
本文利用多模态方法,结合语音和文本特征,提出了自动检测阿尔茨海默病的分类框架,并发现语言特征对于阿尔茨海默病的分类比声学特征更为重要,能够提高分类准确率。
May, 2020
通过将语言复杂度和(不)流畅特征与预训练语言模型相结合,成功地在 2021 年 ADReSSo(阿尔茨海默病性痴呆症通过自发性言语识别)挑战赛的阿尔茨海默病检测任务中取得了 83.1% 的准确率,这是基准模型的 4.23% 的提高,并且在交叉验证和测试数据上表现出了很好的鲁棒性。
Jun, 2021