Aug, 2022

挖掘公共数据中的音频文本对以提升低资源语言的 ASR 系统有效性

TL;DR本文利用 All India Radio 文档中的文本和音频对来创建了一个名为 Shrutilipi 的数据集,该数据集包含来自 12 种印度语言的 6,400 小时的语音,其对应的文本总计 4.95M 句子。将 Shrutilipi 添加到训练集中可提高 Wav2Vec 模型、Conformer 模型的准确性,且该数据集具有代表性和多样性。