May, 2023

基于 E-Branchformer 和多任务学习的失语症语音识别和检测新基准

TL;DR本篇论文使用最先进的语音识别技术基于 AphsiaBank 数据集,提出了一个新的 Aphasia 语音识别基准,并引入了基于 CTC/Attention 架构的两种多任务学习方法以同时执行两个任务。研究者的系统实现了 97.3% 的说话人级别的检测精度和中度 Aphasia 患者的 11% 的相对 WER 降低率。此外,作者还将这种方法应用到另一个失序语音数据库,即 DementiaBank Pitt 语料库。研究者提供了标准化的数据预处理流程和开源配方,使研究者可以直接比较结果,促进失序语音处理的进步。