Jun, 2024

AS-70:一份供自动语音识别和口吃事件检测使用的普通话口吃语音数据集

TL;DR通过引入 AS-70,首个公开可用的普通话口吃语音数据集,本研究旨在改善自动语音识别(ASR)模型在口吃语音上表现的效果。该数据集包括对话和语音命令朗读内容的逐字手工转录,适用于多种与语音相关的任务。实验结果表明,通过将此数据集应用于模型微调,可以显著改善现有 ASR 模型的性能,提高了对口吃语音的包容性。