有用的失误:自动语音识别错误是否可以提高下游痴呆分类?
研究使用自我监督学习的深度学习自动语音识别模型在临床设置中处理话语自然性上的困难,并探讨产生的错误对痴呆分类下游任务准确性的影响。结果表明,相对高错误率的自动语音识别系统可以产生更好的下游分类精度而非字面上的听写结果。
Nov, 2022
本研究发现,删除错误最大程度影响语法复杂性和言语中的话语表示等特征,因此在自动语音识别中加入惩罚删除错误的机制有助于提高认知障碍检测性能。
Apr, 2019
本研究使用最新的自动语音识别技术,研究如何应用暂停符号和自动标点符号进行阿尔茨海默病分类,实验结果表明,这两种技术与手工转录结合可有效识别阿尔茨海默病。
Jun, 2023
这项研究评估了六个领先的自动语音识别系统对有语吃现象的言语的处理性能,并发现这些系统普遍存在的准确性偏差对不流利言语的处理,导致语法和语义不准确的转录,揭示了当前自动语音识别技术存在的重要差距,强调了有效的偏见缓解策略的必要性。
May, 2024
提出了一种基于语音 / 文本内涵的新型端到端 ASR 错误检测方法,该方法通过将音频和对应的文本片段之间的内涵建模为端到端任务,并利用声学编码器和语言编码器来预测内涵,实验结果表明该方法可以有效降低医学术语方面的分类错误率 12% 和 15.4%。
Jul, 2022
介绍了一种基于神经网络的自然语言处理方法,用于识别语音识别中的错误和改进语音理解系统的性能。实验结果表明,该方案可以显著降低概念 / 值错误率,并且结合基于条件随机场的 SLU 方法和神经编码器 / 解码器注意力机制,可以识别出置信度区间和不确定性的语义输出片段,进而决定适当的错误处理措施。
May, 2017
本文介绍了两种基于多模态融合的深度学习模型,同时使用 ASR 转录的语音和声纹数据,对结构化诊断任务中的说话人是否存在阿尔茨海默病进行分类,并评估了 ADReSSo 挑战 2021 数据,其中最佳模型 BiLSTM 采用了包括单词、单词概率、口吃特征、停顿信息和各种声学特征的 highway 层,实现了 84% 的准确率和 4.26 的 MMSE 认知分数预测 RSME 误差。通过使用多模态方法和单词概率、口吃和停顿信息,我们的模型在预测认知衰退时表现出了提高,并且对于使用多模态融合和门控技术进行的 AD 分类,我们展示了相当大的收益。
Jun, 2021
使用多模式深度学习方法通过语音和相应的文本同时检测多种言语段落的诊断,其模型在 Dementiabank Pitt 语料库上获得了 85.3% 的准确率。
Nov, 2020
该研究的主要目的是通过使用自动语音识别 (ASR) 中的错误模拟器实现对清洁训练文本进行随机破坏,从而提高口头语言理解 (SLU) 的鲁棒性,结果表明该方法可以显著提高知识选择及分类产生的结果。
Nov, 2022