automatic speech recognition (ASR) can play a crucial role in enhancing the
accessibility of spoken languages worldwide. In this paper, we build a set of
ASR tools for amharic, a language spoken by more than 50 m
使用不同词错误率(WERs)的 ASR 转录对 IEMOCAP,CMU-MOSI 和 MSP-Podcast 等已知语料库进行 SER 性能评估,同时提出了一个统一的 ASR 错误抗干扰框架,并与最佳表现的 ASR 转录进行比较,实现了更低的 WER 和更高的 SER 结果,为 SER 与 ASR 协助的研究提供了洞见。
本文描述了在 2020 年 6 月非洲机器智能硕士(AMMI)期间启动的一次非正式合作的结果,该合作集中在自动语音识别(ASR)项目上,描述了如何收集数据以及使用少量(1 小时)转录语音作为训练数据如何开发 ASR 系统。在这种低资源条件下,基于大量原始语音的预训练模型对于开发 ASR 系统的效率至关重要。
该研究使用预训练序列到序列模型 BART,并对其进行自适应训练来对自动语音识别中的发音和拼写错误进行纠正,并采用词级对齐的简单方法重新评分。实验结果表明,该策略在口音语音数据上有效地矫正了大量 ASR 错误,并在与基准系统的比较中产生了改进的 WER 结果。然而,在印地语语法错误纠正任务中,该模型捕捉更广泛上下文的能力受到限制。