有用的失误：自动语音识别错误是否可以提高下游痴呆分类？

Jan, 2024

有用的失误：自动语音识别错误是否可以提高下游痴呆分类？

Useful Blunders: Can Automated Speech Recognition Errors Improve Downstream Dementia Classification?

Changye Li, Weizhe Xu, Trevor Cohen, Serguei Pakhomov

TL;DR不完整的自动语音识别 ASR 转录有效捕捉与痴呆症相关的语言异常，提高分类任务的准确性。ASR 和分类模型之间的协同作用凸显了 ASR 在评估认知损害和相关临床应用中的潜在价值。

Abstract

\textbf{Objectives}: We aimed to investigate how errors from automatic speech recognition (ASR) systems affect dementia classification accuracy, specifically in the ``Cookie Theft'' picture description task. We aimed to assess whether imperfect →

automatic speech recognition dementia classification asr-generated transcripts language samples alzheimer's disease

发现论文，激发创造

失败的另一面：探究语音识别误差对随后痴呆症分类的影响

研究使用自我监督学习的深度学习自动语音识别模型在临床设置中处理话语自然性上的困难，并探讨产生的错误对痴呆分类下游任务准确性的影响。结果表明，相对高错误率的自动语音识别系统可以产生更好的下游分类精度而非字面上的听写结果。

Nov, 2022

自动语音识别对阿尔茨海默病检测的影响：所有错误一视同仁，但删除比其他错误更为严重

本研究发现，删除错误最大程度影响语法复杂性和言语中的话语表示等特征，因此在自动语音识别中加入惩罚删除错误的机制有助于提高认知障碍检测性能。

Apr, 2019

运用基于 ASR 的转录进行阿尔茨海默病分类：探究标点符号和停顿的影响

本研究使用最新的自动语音识别技术，研究如何应用暂停符号和自动标点符号进行阿尔茨海默病分类，实验结果表明，这两种技术与手工转录结合可有效识别阿尔茨海默病。

Jun, 2023

渐进性发音障碍对 ASR 性能的分析

本文分析了自动语音识别模型在变化的语音环境下的性能衰减问题和如何通过个性化模型、连续录音等方法实现优化识别的目的。

Oct, 2022

失传于转录：识别和量化自动语音识别系统对不流利语音的准确性偏差

这项研究评估了六个领先的自动语音识别系统对有语吃现象的言语的处理性能，并发现这些系统普遍存在的准确性偏差对不流利言语的处理，导致语法和语义不准确的转录，揭示了当前自动语音识别技术存在的重要差距，强调了有效的偏见缓解策略的必要性。

May, 2024

音频 - 文本蕴含的 ASR 错误检测

提出了一种基于语音 / 文本内涵的新型端到端 ASR 错误检测方法，该方法通过将音频和对应的文本片段之间的内涵建模为端到端任务，并利用声学编码器和语言编码器来预测内涵，实验结果表明该方法可以有效降低医学术语方面的分类错误率 12% 和 15.4%。

Jul, 2022

提高口语理解的 ASR 错误管理

介绍了一种基于神经网络的自然语言处理方法，用于识别语音识别中的错误和改进语音理解系统的性能。实验结果表明，该方案可以显著降低概念 / 值错误率，并且结合基于条件随机场的 SLU 方法和神经编码器 / 解码器注意力机制，可以识别出置信度区间和不确定性的语义输出片段，进而决定适当的错误处理措施。

May, 2017

使用听觉、词汇、语调和停顿特征对阿尔茨海默病痴呆进行识别并抗干扰

本文介绍了两种基于多模态融合的深度学习模型，同时使用 ASR 转录的语音和声纹数据，对结构化诊断任务中的说话人是否存在阿尔茨海默病进行分类，并评估了 ADReSSo 挑战 2021 数据，其中最佳模型 BiLSTM 采用了包括单词、单词概率、口吃特征、停顿信息和各种声学特征的 highway 层，实现了 84％的准确率和 4.26 的 MMSE 认知分数预测 RSME 误差。通过使用多模态方法和单词概率、口吃和停顿信息，我们的模型在预测认知衰退时表现出了提高，并且对于使用多模态融合和门控技术进行的 AD 分类，我们展示了相当大的收益。

Jun, 2021

从语音和文本多模态检测阿尔茨海默病

使用多模式深度学习方法通过语音和相应的文本同时检测多种言语段落的诊断，其模型在 Dementiabank Pitt 语料库上获得了 85.3% 的准确率。

Nov, 2020

具有 ASR 错误的对话式交互中的稳健非结构化知识访问

该研究的主要目的是通过使用自动语音识别 (ASR) 中的错误模拟器实现对清洁训练文本进行随机破坏，从而提高口头语言理解 (SLU) 的鲁棒性，结果表明该方法可以显著提高知识选择及分类产生的结果。

Nov, 2022