Vistaar: 用于印度语音识别的多元基准和训练集
本研究创建了一个 Svarah 基准测试数据集,其中包括来自印度 65 个地理位置的 117 位说话者的 9.6 小时的语音数据,用来评估 ASR 模型在印度口音上的表现,并发现改进的空间。
May, 2023
Vakyansh 是一个 Indic 语言语音识别端到端工具包,通过自动数据流水线实现数据创建,训练和部署,提供了适应于 18 种 Indic 语言的最先进的语音识别模型,并开放了所有这些资源来支持语音开发者社区。
Mar, 2022
本研究通过比较使用多语种和单语种模型进行语音识别的表现,提出了一种基于 wav2vec 2.0 的端到端多语种语音识别和混合语言识别技术,取得了印度诸多语言语音识别的较好效果。
Mar, 2022
本文探究了应用语言模型(LM)到印欧语系语言的自动语音识别(ASR)系统输出结果的影响。我们使用来自多种来源的文本对 18 种印欧语系语言的 wav2vec 2.0 模型进行微调,并进行结果调整。我们的研究结果显示,经过 LM 解码后,字符错误率(CER)平均降低了 28%以上,单词错误率(WER)平均降低了约 36%。文章还表明,与多样化的 LM 相比,大型 LM 可能不会带来更大的改进。此外,我们还展示了可以在不重新训练 ASR 模型的情况下在生物医学领域的专业数据上获得高质量翻译的结果。
Mar, 2022
通过利用语音和文本资源采用适应和微调技术,提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别(ASR)性能,并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。
Jul, 2023
本研究描述了一个庞大的语音数据集的构建过程,并利用该数据集评估了印度不同演讲者的性别、籍贯、年龄和语速对 YouTube 自动字幕和 OpenAI Whisper 模型性能的影响。结果表明需要更具包容性和鲁棒性的 ASR 系统以及更具代表性的数据集进行差异性评估。
Jul, 2023
本研究使用转移学习和数据增强方法,对最近的 Deep Speech 模型(deepspeech-0.9.3)进行 fine-tuning,以开发一个适用于印度英语口音的端到端语音识别系统,并与其他可用的印度英语口音识别服务进行了比较。
Apr, 2022
我们提供了 INDICVOICES 数据集,该数据集包含来自 16237 名发言人的 7348 小时自然和自发的语音,涵盖了 145 个印度地区和 22 种语言。通过本文,我们分享了捕捉印度文化、语言和人口多样性的旅程,为数据收集提供了标准化协议、集中工具、引人入胜的问题、提示和对话场景库,以及质量控制机制和全面的转录指南。我们希望这一开源蓝图能够成为其他多语言地区数据收集工作的全面入门指南。利用 INDICVOICES,我们构建了 IndicASR,这是第一个支持印度宪法第八版中列出的 22 种语言的 ASR 模型。本研究的所有数据、工具、指南、模型和其他资料都将公开提供。
Mar, 2024
本文提出了 LoRA-Whisper 模型,通过将 LoRA 矩阵融入 Whisper,有效减轻多语种自动语音识别中的语言干扰,并通过利用 LoRA 和语言之间的相似性,在新语种上取得更好的性能,同时保持原有语种的稳定性。在涉及八种语言的真实任务实验中,我们的提出的 LoRA-Whisper 相对于基准系统分别在多语种自动语音识别和语言扩展方面获得了 18.5% 和 23.0% 的相对增益。
Jun, 2024